فك شيفرة R1-Zero: محاذاة فعّالة لأنظمة اللغة الكبيرة باستخدام إطار عمل Oat

2025-03-22
فك شيفرة R1-Zero: محاذاة فعّالة لأنظمة اللغة الكبيرة باستخدام إطار عمل Oat

أصدر الباحثون ورقة بحثية ونماذج وقاعدة بيانات تكشف أسرار التدريب الشبيه بـ R1-Zero. قاموا بتطوير Oat، وهو إطار عمل فعال للغاية وقابل للتعديل لوظيفة التعلم المعزز للغة الكبيرة، واستخدموه لتدريب نماذج مثل Qwen2.5 بطريقة R1-Zero. أظهرت الدراسة أن النماذج الأساسية المناسبة وخوارزمية التعلم المعزز المحسّنة (Dr. GRPO) ضروريان لتجنب التحسين المتحيز الناتج عن عدم تطابق القوالب ومجموعات الأسئلة. في النهاية، حققوا أداءً متطورًا بـ 27 ساعة فقط من الحوسبة على 8 وحدات معالجة رسوميات A100.

الذكاء الاصطناعي أنظمة اللغة الكبيرة