Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Entraîner des agents de terminal à long horizon avec l'apprentissage par renforcement : Terminal-Bench-RL

2025-07-29

Ce projet détaille la création d'une infrastructure d'entraînement RL stable qui s'adapte à 32 GPU H100 sur 4 nœuds pour entraîner des agents de codage basés sur un terminal à long horizon. L'auteur a développé Terminal-Agent-Qwen3-32b, obtenant le score le plus élevé sur terminal-bench pour les agents Qwen3 *sans* entraînement ! Basé sur le framework rLLM, il inclut des environnements personnalisés et une infrastructure. Utilisant environ 1 million de dollars en puissance de calcul, l'agent a atteint la 19e place du classement terminal-bench, surpassant plusieurs agents de pointe de Stanford et d'OpenAI. Une invite système sophistiquée et des outils personnalisés guident le comportement de l'agent. Bien qu'une exécution d'entraînement complète était prohibitive en termes de coûts, le code et l'ensemble de données sont fournis, invitant à de futures recherches avec des ressources de calcul accrues.

(github.com)

Développement Agent de terminal