Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

نماذج اللغات الكبيرة تتخلف عن الركب في أولمبياد الرياضيات الدولية لعام 2025: لا يزال الأداء على مستوى الميداليات بعيد المنال

2025-07-19

قام الباحثون بتقييم خمسة نماذج لغوية كبيرة (LLMs) متطورة على مشاكل أولمبياد الرياضيات الدولية (IMO) لعام 2025 باستخدام منصة MathArena. أحرز نموذج Gemini 2.5 Pro أفضل نتيجة، محققًا نسبة 31% فقط (13 نقطة)، وهي أقل بكثير من 19 نقطة اللازمة للفوز بميدالية برونزية. تخلف النماذج الأخرى بشكل كبير. تم استخدام استراتيجية اختيار الأفضل من بين 32، حيث تم إنشاء وتقييم استجابات متعددة لكل مشكلة، مما زاد من التكلفة الحسابية بشكل كبير. على الرغم من ذلك، تُظهر النتائج وجود فجوة كبيرة بين نماذج LLMs الحالية والأداء على مستوى الميداليات في مسائل رياضية شديدة الصعوبة مثل تلك الموجودة في IMO، حتى مع وجود موارد حسابية كبيرة. كشفت التحليلات النوعية عن مشاكل مثل نماذج تستشهد بtheorems غير موجودة وتقدم إجابات موجزة للغاية.