ART: تحسين أداء نماذج اللغات الكبيرة (LLMs) بتغييرات رمزية ضئيلة عبر التعلم المعزز
2025-04-30
مدرب التعزيز الوكيل (ART) هو مكتبة تعلّم معزز مفتوحة المصدر مصممة لتعزيز أداء نماذج اللغات الكبيرة (LLMs) في سير العمل الوكيل. باستخدام خوارزمية GRPO القوية، يقوم ART بتدريب النماذج من خلال تجاربها الخاصة. على عكس معظم مكتبات RL، يتكامل ART بسلاسة مع قواعد البيانات البرمجية الحالية، حيث يقوم بتحميل تعقيد حلقة تدريب RL إلى الخلفية الخاصة به. يتكون ART من عميل (للتفاعل مع التعليمات البرمجية الخاصة بك) وخادم (يتعامل مع الاستنتاج والتدريب). تتضمن حلقة التدريب الاستنتاج (جمع البيانات وتعيين المكافآت) والتدريب (باستخدام GRPO لتدريب النموذج وتحديث LoRAs). يدعم ART معظم نماذج اللغات السببية المتوافقة مع vLLM/HuggingFace Transformers. وهو حاليًا في مرحلة ألفا، ويرحب ART بالمساهمات.
التطوير