تدريب وكلاء المحطة الطويلة المدى باستخدام التعلم المعزز: Terminal-Bench-RL
2025-07-29
يصف هذا المشروع إنشاء بنية تحتية مستقرة لتدريب التعلم المعزز تتسع إلى 32 وحدة معالجة رسوميات H100 عبر 4 عقد لتدريب وكلاء ترميز قائمين على المحطة ذات المدى الطويل. طور المؤلف Terminal-Agent-Qwen3-32b ، محققًا أعلى الدرجات في terminal-bench لوكلاء Qwen3 *بدون* تدريب! مبني على إطار عمل rLLM ، يتضمن بيئات مخصصة وبنية تحتية. باستخدام ما يقارب مليون دولار أمريكي من الحوسبة ، حقق الوكيل المركز التاسع عشر في تصنيف terminal-bench ، متفوقًا على العديد من الوكلاء الرائدين من ستانفورد و OpenAI. توجه مطالبة نظام متطورة وأدوات مخصصة سلوك الوكيل. على الرغم من أن تشغيل التدريب الكامل كان مكلفًا للغاية ، إلا أن التعليمات البرمجية ومجموعة البيانات متوفرة ، مما يدعو إلى إجراء المزيد من الأبحاث مع زيادة موارد الحوسبة.
التطوير
وكيل المحطة