نماذج اللغات الكبيرة تتخلف عن الركب في أولمبياد الرياضيات الدولية لعام 2025: لا يزال الأداء على مستوى الميداليات بعيد المنال
2025-07-19
قام الباحثون بتقييم خمسة نماذج لغوية كبيرة (LLMs) متطورة على مشاكل أولمبياد الرياضيات الدولية (IMO) لعام 2025 باستخدام منصة MathArena. أحرز نموذج Gemini 2.5 Pro أفضل نتيجة، محققًا نسبة 31% فقط (13 نقطة)، وهي أقل بكثير من 19 نقطة اللازمة للفوز بميدالية برونزية. تخلف النماذج الأخرى بشكل كبير. تم استخدام استراتيجية اختيار الأفضل من بين 32، حيث تم إنشاء وتقييم استجابات متعددة لكل مشكلة، مما زاد من التكلفة الحسابية بشكل كبير. على الرغم من ذلك، تُظهر النتائج وجود فجوة كبيرة بين نماذج LLMs الحالية والأداء على مستوى الميداليات في مسائل رياضية شديدة الصعوبة مثل تلك الموجودة في IMO، حتى مع وجود موارد حسابية كبيرة. كشفت التحليلات النوعية عن مشاكل مثل نماذج تستشهد بtheorems غير موجودة وتقدم إجابات موجزة للغاية.
الذكاء الاصطناعي
أولمبياد الرياضيات الدولية