ART: تحسين أداء نماذج اللغات الكبيرة (LLMs) بتغييرات رمزية ضئيلة عبر التعلم المعزز

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-04-30

مدرب التعزيز الوكيل (ART) هو مكتبة تعلّم معزز مفتوحة المصدر مصممة لتعزيز أداء نماذج اللغات الكبيرة (LLMs) في سير العمل الوكيل. باستخدام خوارزمية GRPO القوية، يقوم ART بتدريب النماذج من خلال تجاربها الخاصة. على عكس معظم مكتبات RL، يتكامل ART بسلاسة مع قواعد البيانات البرمجية الحالية، حيث يقوم بتحميل تعقيد حلقة تدريب RL إلى الخلفية الخاصة به. يتكون ART من عميل (للتفاعل مع التعليمات البرمجية الخاصة بك) وخادم (يتعامل مع الاستنتاج والتدريب). تتضمن حلقة التدريب الاستنتاج (جمع البيانات وتعيين المكافآت) والتدريب (باستخدام GRPO لتدريب النموذج وتحديث LoRAs). يدعم ART معظم نماذج اللغات السببية المتوافقة مع vLLM/HuggingFace Transformers. وهو حاليًا في مرحلة ألفا، ويرحب ART بالمساهمات.

التطوير