Webtagr - ملخصات الأخبار التكنولوجية

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

Putnam-AXIOM: معيار جديد يختبر قدرات نماذج اللغات الكبيرة في الاستدلال الرياضي

2025-01-01

قدم الباحثون Putnam-AXIOM، وهو معيار صعب يتكون من 236 مسألة من مسابقة ويليام لويل بوتنام الرياضية، مصمم لتقييم قدرات نماذج اللغات الكبيرة (LLMs) في الاستدلال الرياضي المتقدم. للتخفيف من تلوث البيانات، تم إنشاء معيار متغيرات مع تعديلات وظيفية لـ 52 مسألة. تُظهر النتائج أن حتى أفضل نماذج الأداء تعاني من انخفاض كبير في الدقة (حوالي 30٪) في المتغيرات مقارنةً بالمسائل الأصلية، مما يبرز مجالًا كبيرًا للتحسين في الاستدلال الرياضي لـ LLMs.

اقرأ المزيد