Entrenando agentes de terminal de largo alcance con aprendizaje por refuerzo: Terminal-Bench-RL

2025-07-29
Entrenando agentes de terminal de largo alcance con aprendizaje por refuerzo: Terminal-Bench-RL

Este proyecto detalla la creación de una infraestructura de entrenamiento RL estable que escala a 32 GPUs H100 en 4 nodos para entrenar agentes de codificación basados en terminal de largo alcance. El autor desarrolló Terminal-Agent-Qwen3-32b, logrando la puntuación más alta en terminal-bench para agentes Qwen3 *sin* entrenamiento. Construido sobre el framework rLLM, incluye entornos personalizados e infraestructura. Utilizando aproximadamente $1 millón en cómputo, el agente logró el puesto 19 en el ranking de terminal-bench, superando a varios agentes de primer nivel de Stanford y OpenAI. Un prompt de sistema sofisticado y herramientas personalizadas guían el comportamiento del agente. Si bien una ejecución de entrenamiento completa era prohibitivamente costosa, el código y el conjunto de datos se proporcionan, invitando a futuras investigaciones con mayores recursos computacionales.

Desarrollo