نماذج استنتاج رخيصة تتفوق على عمالقة التكنولوجيا: حل الألغاز المنطقية باستخدام التعلم المعزز
2025-03-06
استخدم الباحثون تقنية التعلم المعزز لتدريب نماذج لغة مفتوحة المصدر أصغر حجماً وأقل تكلفة، متفوقة على نماذج DeepSeek R1 و OpenAI o1 و o3-mini، وقريبة من أداء نموذج Anthropic Sonnet 3.7 في لعبة تعتمد على المنطق تسمى "الدليل الزمني"، مع انخفاض تكلفة الاستنتاج بأكثر من 100 مرة. وقد حققوا ذلك من خلال تصميم دقيق للمهام، وضبط المعلمات الفائقة، واستخدام خوارزمية تحسين السياسة النسبية للمجموعة (GRPO) ومكتبة torchtune. تُظهر هذه الدراسة إمكانات التعلم المعزز في تدريب النماذج المفتوحة المصدر بكفاءة لمهام الاستنتاج المعقدة، حتى مع البيانات المحدودة، محققة مكاسب كبيرة في الأداء مع 16 مثالاً تدريبياً فقط.
اقرأ المزيد
الذكاء الاصطناعي