Putnam-AXIOM: معيار جديد يختبر قدرات نماذج اللغات الكبيرة في الاستدلال الرياضي

2025-01-01
Putnam-AXIOM: معيار جديد يختبر قدرات نماذج اللغات الكبيرة في الاستدلال الرياضي

قدم الباحثون Putnam-AXIOM، وهو معيار صعب يتكون من 236 مسألة من مسابقة ويليام لويل بوتنام الرياضية، مصمم لتقييم قدرات نماذج اللغات الكبيرة (LLMs) في الاستدلال الرياضي المتقدم. للتخفيف من تلوث البيانات، تم إنشاء معيار متغيرات مع تعديلات وظيفية لـ 52 مسألة. تُظهر النتائج أن حتى أفضل نماذج الأداء تعاني من انخفاض كبير في الدقة (حوالي 30٪) في المتغيرات مقارنةً بالمسائل الأصلية، مما يبرز مجالًا كبيرًا للتحسين في الاستدلال الرياضي لـ LLMs.

اقرأ المزيد
الذكاء الاصطناعي الاستدلال الرياضي المعيار