نماذج الاستدلال الضخمة: الانهيار والقياس غير البديهي

2025-06-08
نماذج الاستدلال الضخمة: الانهيار والقياس غير البديهي

أدت أجيال نماذج اللغة الضخمة الحديثة إلى ظهور نماذج استدلال ضخمة (LRMs) ، والتي تولد مسارات تفكير مفصلة قبل تقديم الإجابات. على الرغم من أنها تُظهر تحسينًا في معايير اختبار الاستدلال ، إلا أن قدراتها الأساسية لا تزال غير مفهومة جيدًا. يبحث هذا العمل في نماذج LRMs باستخدام بيئات ألغاز قابلة للتحكم ، ويكشف عن انهيار كامل للدقة يتجاوز عتبة معينة من التعقيد. وبشكل مدهش ، يزداد جهد الاستدلال مع زيادة التعقيد ، ثم يتناقص على الرغم من وجود ميزانية كافية من الرموز. مقارنةً بنماذج اللغة الضخمة القياسية ، ظهرت ثلاث أنظمة: (1) مهام منخفضة التعقيد حيث تتفوق نماذج اللغة الضخمة القياسية على نماذج LRMs ، (2) مهام متوسطة التعقيد حيث تُظهر نماذج LRMs ميزة ، و (3) مهام عالية التعقيد حيث تفشل كلاهما. تُظهر نماذج LRMs قيودًا في الحساب الدقيق ، حيث تفشل في استخدام الخوارزميات الصريحة وتستدل بشكل غير متسق. تُبرز هذه الدراسة نقاط القوة والقيود والأسئلة الهامة حول القدرات الحقيقية للاستدلال في نماذج LRMs.

الذكاء الاصطناعي