فك شيفرة R1-Zero: محاذاة فعّالة لأنظمة اللغة الكبيرة باستخدام إطار عمل Oat
2025-03-22
أصدر الباحثون ورقة بحثية ونماذج وقاعدة بيانات تكشف أسرار التدريب الشبيه بـ R1-Zero. قاموا بتطوير Oat، وهو إطار عمل فعال للغاية وقابل للتعديل لوظيفة التعلم المعزز للغة الكبيرة، واستخدموه لتدريب نماذج مثل Qwen2.5 بطريقة R1-Zero. أظهرت الدراسة أن النماذج الأساسية المناسبة وخوارزمية التعلم المعزز المحسّنة (Dr. GRPO) ضروريان لتجنب التحسين المتحيز الناتج عن عدم تطابق القوالب ومجموعات الأسئلة. في النهاية، حققوا أداءً متطورًا بـ 27 ساعة فقط من الحوسبة على 8 وحدات معالجة رسوميات A100.
الذكاء الاصطناعي
أنظمة اللغة الكبيرة