تعلم التعزيز دون اتصال يحسن الاستدلال متعدد الخطوات في نماذج اللغة الكبيرة

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2024-12-23

يقدم الباحثون أوريو، وهي طريقة تعلم تعزيز دون اتصال مصممة لتحسين قدرات الاستدلال متعدد الخطوات لأنماط اللغة الكبيرة (LLMs). بناءً على تعلم التعزيز ذي الإنتروبيا القصوى، يتعلم أوريو نموذجًا للسياسة ودالة قيمة بشكل مشترك عن طريق تحسين معادلة بيلمان الناعمة. هذا يعالج قيود تحسين التفضيل المباشر (DPO) في الاستدلال متعدد الخطوات، وتحديداً الحاجة إلى بيانات تفضيلية مُقرّنة واسعة النطاق وتحدي التخصيص الفعال للرصيد. تُظهر التجارب تفوّق أوريو على طرق التعلم دون اتصال الموجودة في المعايير التي تتضمن الاستدلال الرياضي والتحكم في العامل المُجسّد.