RLVR يعزز القدرة على التفكير المنطقي... لكن بتكلفة؟

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-04-22

أجريت تجارب في مجالات الرياضيات والترميز والتفكير البصري لتقييم تأثير RLVR (التعلم المعزز من خلال التغذية الراجعة البشرية) على نماذج اللغة الأساسية ونماذج اللغة الكبيرة المدربة بـ RLVR. أظهرت النتائج أن RLVR حسّن الدقة عند قيم k المنخفضة، لكنه قلل من تغطية المشكلات عند قيم k الأعلى. هذا يشير إلى أن RLVR يعزز الدقة الحتمية، لكنه يحد من تنوع الاستكشاف. حافظت النماذج الأساسية على تغطية أوسع للتفكير المنطقي على الرغم من المكاسب الأولية في الدقة من خلال RL. تشير النتائج المتسقة عبر المجالات المختلفة إلى أن RLVR يحسن التفكير المنطقي دون تغيير أسلوب حل المشكلات بشكل جذري.