تدريب GRPO خفيف الوزن: بدون Transformers أو vLLM

2025-04-13
 تدريب GRPO خفيف الوزن: بدون Transformers أو vLLM

يقوم هذا المشروع بتنفيذ إطار عمل تدريب GRPO (Group Relative Policy Optimization) خفيف الوزن، تم بناؤه تقريبًا من الصفر، ويعتمد فقط على أجهزة تحليل الرموز و PyTorch. يحسّن هذا الإطار عمل الخوارزمية الأصلية من خلال إزالة فرق KL وإضافة تصفية للحلقات الطويلة جدًا، مما يحسّن من استقرار التدريب واستخدام ذاكرة وحدة معالجة الرسومات. يقوم المشروع بتدريب نموذج Qwen2.5-3B-Instruct على مهمة العد التنازلي، والتي تتطلب إنشاء تعبير رياضي للوصول إلى قيمة مستهدفة بالنظر إلى مجموعة من الأرقام. يحل النموذج هذه المشكلة من خلال تعلم إنشاء استنتاجات سلسلة الأفكار قبل الإجابة النهائية، بإرشاد من مكافآت التنسيق والإجابة. العملية برمتها بسيطة وقابلة للتكرار، وتعمل على وحدة معالجة رسومات A40 واحدة بأوامر قليلة.

التطوير