نماذج اللغات الكبيرة تتخلف عن الركب في أولمبياد الرياضيات الدولية لعام 2025: لا يزال الأداء على مستوى الميداليات بعيد المنال

2025-07-19

قام الباحثون بتقييم خمسة نماذج لغوية كبيرة (LLMs) متطورة على مشاكل أولمبياد الرياضيات الدولية (IMO) لعام 2025 باستخدام منصة MathArena. أحرز نموذج Gemini 2.5 Pro أفضل نتيجة، محققًا نسبة 31% فقط (13 نقطة)، وهي أقل بكثير من 19 نقطة اللازمة للفوز بميدالية برونزية. تخلف النماذج الأخرى بشكل كبير. تم استخدام استراتيجية اختيار الأفضل من بين 32، حيث تم إنشاء وتقييم استجابات متعددة لكل مشكلة، مما زاد من التكلفة الحسابية بشكل كبير. على الرغم من ذلك، تُظهر النتائج وجود فجوة كبيرة بين نماذج LLMs الحالية والأداء على مستوى الميداليات في مسائل رياضية شديدة الصعوبة مثل تلك الموجودة في IMO، حتى مع وجود موارد حسابية كبيرة. كشفت التحليلات النوعية عن مشاكل مثل نماذج تستشهد بtheorems غير موجودة وتقدم إجابات موجزة للغاية.

اقرأ المزيد
الذكاء الاصطناعي أولمبياد الرياضيات الدولية

MathArena: تقييم دقيق لنماذج اللغات الكبيرة في مسابقات الرياضيات

2025-04-02

MathArena عبارة عن منصة لتقييم نماذج اللغات الكبيرة (LLMs) في مسابقات الرياضيات والأولمبياد الحديثة. تضمن تقييمًا عادلًا وغير متحيز من خلال اختبار النماذج حصريًا في مسابقات ما بعد الإصدار، مما يمنع التقييمات الاسترجاعية للبيانات التي قد تكون مسربة. تنشر المنصة لوحات قادة لكل مسابقة، تعرض درجات المسائل الفردية لأنماط مختلفة، وجدولًا رئيسيًا يلخص الأداء عبر جميع المسابقات. يتم تشغيل كل نموذج أربع مرات لكل مسألة، مع حساب متوسط ​​الدرجات وتكلفة النموذج (بالدولار الأمريكي). شفرة التقييم مفتوحة المصدر: https://github.com/eth-sri/matharena.

اقرأ المزيد
الذكاء الاصطناعي مسابقات الرياضيات