فك شيفرة R1-Zero: محاذاة فعّالة لأنظمة اللغة الكبيرة باستخدام إطار عمل Oat

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-03-22

أصدر الباحثون ورقة بحثية ونماذج وقاعدة بيانات تكشف أسرار التدريب الشبيه بـ R1-Zero. قاموا بتطوير Oat، وهو إطار عمل فعال للغاية وقابل للتعديل لوظيفة التعلم المعزز للغة الكبيرة، واستخدموه لتدريب نماذج مثل Qwen2.5 بطريقة R1-Zero. أظهرت الدراسة أن النماذج الأساسية المناسبة وخوارزمية التعلم المعزز المحسّنة (Dr. GRPO) ضروريان لتجنب التحسين المتحيز الناتج عن عدم تطابق القوالب ومجموعات الأسئلة. في النهاية، حققوا أداءً متطورًا بـ 27 ساعة فقط من الحوسبة على 8 وحدات معالجة رسوميات A100.