نماذج الاستدلال الضخمة: الانهيار والقياس غير البديهي

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-06-08

أدت أجيال نماذج اللغة الضخمة الحديثة إلى ظهور نماذج استدلال ضخمة (LRMs) ، والتي تولد مسارات تفكير مفصلة قبل تقديم الإجابات. على الرغم من أنها تُظهر تحسينًا في معايير اختبار الاستدلال ، إلا أن قدراتها الأساسية لا تزال غير مفهومة جيدًا. يبحث هذا العمل في نماذج LRMs باستخدام بيئات ألغاز قابلة للتحكم ، ويكشف عن انهيار كامل للدقة يتجاوز عتبة معينة من التعقيد. وبشكل مدهش ، يزداد جهد الاستدلال مع زيادة التعقيد ، ثم يتناقص على الرغم من وجود ميزانية كافية من الرموز. مقارنةً بنماذج اللغة الضخمة القياسية ، ظهرت ثلاث أنظمة: (1) مهام منخفضة التعقيد حيث تتفوق نماذج اللغة الضخمة القياسية على نماذج LRMs ، (2) مهام متوسطة التعقيد حيث تُظهر نماذج LRMs ميزة ، و (3) مهام عالية التعقيد حيث تفشل كلاهما. تُظهر نماذج LRMs قيودًا في الحساب الدقيق ، حيث تفشل في استخدام الخوارزميات الصريحة وتستدل بشكل غير متسق. تُبرز هذه الدراسة نقاط القوة والقيود والأسئلة الهامة حول القدرات الحقيقية للاستدلال في نماذج LRMs.

الذكاء الاصطناعي