Entrenando agentes de terminal de largo alcance con aprendizaje por refuerzo: Terminal-Bench-RL

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-07-29

Este proyecto detalla la creación de una infraestructura de entrenamiento RL estable que escala a 32 GPUs H100 en 4 nodos para entrenar agentes de codificación basados en terminal de largo alcance. El autor desarrolló Terminal-Agent-Qwen3-32b, logrando la puntuación más alta en terminal-bench para agentes Qwen3 *sin* entrenamiento. Construido sobre el framework rLLM, incluye entornos personalizados e infraestructura. Utilizando aproximadamente $1 millón en cómputo, el agente logró el puesto 19 en el ranking de terminal-bench, superando a varios agentes de primer nivel de Stanford y OpenAI. Un prompt de sistema sofisticado y herramientas personalizadas guían el comportamiento del agente. Si bien una ejecución de entrenamiento completa era prohibitivamente costosa, el código y el conjunto de datos se proporcionan, invitando a futuras investigaciones con mayores recursos computacionales.

Desarrollo