تعلم التعزيز دون اتصال يحسن الاستدلال متعدد الخطوات في نماذج اللغة الكبيرة
2024-12-23
يقدم الباحثون أوريو، وهي طريقة تعلم تعزيز دون اتصال مصممة لتحسين قدرات الاستدلال متعدد الخطوات لأنماط اللغة الكبيرة (LLMs). بناءً على تعلم التعزيز ذي الإنتروبيا القصوى، يتعلم أوريو نموذجًا للسياسة ودالة قيمة بشكل مشترك عن طريق تحسين معادلة بيلمان الناعمة. هذا يعالج قيود تحسين التفضيل المباشر (DPO) في الاستدلال متعدد الخطوات، وتحديداً الحاجة إلى بيانات تفضيلية مُقرّنة واسعة النطاق وتحدي التخصيص الفعال للرصيد. تُظهر التجارب تفوّق أوريو على طرق التعلم دون اتصال الموجودة في المعايير التي تتضمن الاستدلال الرياضي والتحكم في العامل المُجسّد.