Treinando Agentes de Terminal de Longo Alcance com Aprendizado por Reforço: Terminal-Bench-RL
Este projeto descreve a criação de uma infraestrutura de treinamento RL estável que escala para 32 GPUs H100 em 4 nós para treinar agentes de codificação baseados em terminal de longo alcance. O autor desenvolveu o Terminal-Agent-Qwen3-32b, alcançando a pontuação mais alta no terminal-bench para agentes Qwen3 *sem* treinamento! Construído sobre a estrutura rLLM, inclui ambientes personalizados e infraestrutura. Usando cerca de US$ 1 milhão em computação, o agente alcançou o 19º lugar no ranking do terminal-bench, superando vários agentes de ponta da Stanford e OpenAI. Um prompt de sistema sofisticado e ferramentas personalizadas orientam o comportamento do agente. Embora uma execução de treinamento completa fosse proibitivamente cara, o código e o conjunto de dados são fornecidos, convidando pesquisas adicionais com recursos de computação aumentados.