Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Treinando Agentes de Terminal de Longo Alcance com Aprendizado por Reforço: Terminal-Bench-RL

2025-07-29

Este projeto descreve a criação de uma infraestrutura de treinamento RL estável que escala para 32 GPUs H100 em 4 nós para treinar agentes de codificação baseados em terminal de longo alcance. O autor desenvolveu o Terminal-Agent-Qwen3-32b, alcançando a pontuação mais alta no terminal-bench para agentes Qwen3 *sem* treinamento! Construído sobre a estrutura rLLM, inclui ambientes personalizados e infraestrutura. Usando cerca de US$ 1 milhão em computação, o agente alcançou o 19º lugar no ranking do terminal-bench, superando vários agentes de ponta da Stanford e OpenAI. Um prompt de sistema sofisticado e ferramentas personalizadas orientam o comportamento do agente. Embora uma execução de treinamento completa fosse proibitivamente cara, o código e o conjunto de dados são fornecidos, convidando pesquisas adicionais com recursos de computação aumentados.

(github.com)

Desenvolvimento Agente de Terminal