Entraîner des agents de terminal à long horizon avec l'apprentissage par renforcement : Terminal-Bench-RL
Ce projet détaille la création d'une infrastructure d'entraînement RL stable qui s'adapte à 32 GPU H100 sur 4 nœuds pour entraîner des agents de codage basés sur un terminal à long horizon. L'auteur a développé Terminal-Agent-Qwen3-32b, obtenant le score le plus élevé sur terminal-bench pour les agents Qwen3 *sans* entraînement ! Basé sur le framework rLLM, il inclut des environnements personnalisés et une infrastructure. Utilisant environ 1 million de dollars en puissance de calcul, l'agent a atteint la 19e place du classement terminal-bench, surpassant plusieurs agents de pointe de Stanford et d'OpenAI. Une invite système sophistiquée et des outils personnalisés guident le comportement de l'agent. Bien qu'une exécution d'entraînement complète était prohibitive en termes de coûts, le code et l'ensemble de données sont fournis, invitant à de futures recherches avec des ressources de calcul accrues.