MathArena: تقييم دقيق لنماذج اللغات الكبيرة في مسابقات الرياضيات
2025-04-02
MathArena عبارة عن منصة لتقييم نماذج اللغات الكبيرة (LLMs) في مسابقات الرياضيات والأولمبياد الحديثة. تضمن تقييمًا عادلًا وغير متحيز من خلال اختبار النماذج حصريًا في مسابقات ما بعد الإصدار، مما يمنع التقييمات الاسترجاعية للبيانات التي قد تكون مسربة. تنشر المنصة لوحات قادة لكل مسابقة، تعرض درجات المسائل الفردية لأنماط مختلفة، وجدولًا رئيسيًا يلخص الأداء عبر جميع المسابقات. يتم تشغيل كل نموذج أربع مرات لكل مسألة، مع حساب متوسط الدرجات وتكلفة النموذج (بالدولار الأمريكي). شفرة التقييم مفتوحة المصدر: https://github.com/eth-sri/matharena.
الذكاء الاصطناعي
مسابقات الرياضيات