تدريب وكلاء المحطة الطويلة المدى باستخدام التعلم المعزز: Terminal-Bench-RL

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-07-29

يصف هذا المشروع إنشاء بنية تحتية مستقرة لتدريب التعلم المعزز تتسع إلى 32 وحدة معالجة رسوميات H100 عبر 4 عقد لتدريب وكلاء ترميز قائمين على المحطة ذات المدى الطويل. طور المؤلف Terminal-Agent-Qwen3-32b ، محققًا أعلى الدرجات في terminal-bench لوكلاء Qwen3 *بدون* تدريب! مبني على إطار عمل rLLM ، يتضمن بيئات مخصصة وبنية تحتية. باستخدام ما يقارب مليون دولار أمريكي من الحوسبة ، حقق الوكيل المركز التاسع عشر في تصنيف terminal-bench ، متفوقًا على العديد من الوكلاء الرائدين من ستانفورد و OpenAI. توجه مطالبة نظام متطورة وأدوات مخصصة سلوك الوكيل. على الرغم من أن تشغيل التدريب الكامل كان مكلفًا للغاية ، إلا أن التعليمات البرمجية ومجموعة البيانات متوفرة ، مما يدعو إلى إجراء المزيد من الأبحاث مع زيادة موارد الحوسبة.