تدريب GRPO خفيف الوزن: بدون Transformers أو vLLM

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-04-13

يقوم هذا المشروع بتنفيذ إطار عمل تدريب GRPO (Group Relative Policy Optimization) خفيف الوزن، تم بناؤه تقريبًا من الصفر، ويعتمد فقط على أجهزة تحليل الرموز و PyTorch. يحسّن هذا الإطار عمل الخوارزمية الأصلية من خلال إزالة فرق KL وإضافة تصفية للحلقات الطويلة جدًا، مما يحسّن من استقرار التدريب واستخدام ذاكرة وحدة معالجة الرسومات. يقوم المشروع بتدريب نموذج Qwen2.5-3B-Instruct على مهمة العد التنازلي، والتي تتطلب إنشاء تعبير رياضي للوصول إلى قيمة مستهدفة بالنظر إلى مجموعة من الأرقام. يحل النموذج هذه المشكلة من خلال تعلم إنشاء استنتاجات سلسلة الأفكار قبل الإجابة النهائية، بإرشاد من مكافآت التنسيق والإجابة. العملية برمتها بسيطة وقابلة للتكرار، وتعمل على وحدة معالجة رسومات A40 واحدة بأوامر قليلة.

التطوير