RLVR يعزز القدرة على التفكير المنطقي... لكن بتكلفة؟
2025-04-22
أجريت تجارب في مجالات الرياضيات والترميز والتفكير البصري لتقييم تأثير RLVR (التعلم المعزز من خلال التغذية الراجعة البشرية) على نماذج اللغة الأساسية ونماذج اللغة الكبيرة المدربة بـ RLVR. أظهرت النتائج أن RLVR حسّن الدقة عند قيم k المنخفضة، لكنه قلل من تغطية المشكلات عند قيم k الأعلى. هذا يشير إلى أن RLVR يعزز الدقة الحتمية، لكنه يحد من تنوع الاستكشاف. حافظت النماذج الأساسية على تغطية أوسع للتفكير المنطقي على الرغم من المكاسب الأولية في الدقة من خلال RL. تشير النتائج المتسقة عبر المجالات المختلفة إلى أن RLVR يحسن التفكير المنطقي دون تغيير أسلوب حل المشكلات بشكل جذري.
الذكاء الاصطناعي
القدرة على التفكير المنطقي