用强化学习训练超长视野终端代理:Terminal-Bench-RL

2025-07-29
用强化学习训练超长视野终端代理:Terminal-Bench-RL

作者成功构建了一个稳定的强化学习训练基础设施,可在4个裸机节点上扩展到32个H100 GPU,用于训练超长视野的基于终端的编码代理。通过这个项目,作者开发的Terminal-Agent-Qwen3-32b在terminal-bench上获得了最高分,而且是在未经训练的情况下!作者利用rLLM框架,并添加了针对终端代理训练的自定义环境和基础设施。该项目使用了价值百万美元的计算资源进行训练,并最终在terminal-bench排行榜上排名第19位,超越了斯坦福大学和OpenAI的多个顶级代理。作者还开发了一套完整的工具和系统提示,以指导代理高效完成任务。由于计算成本高昂,作者未能进行完整的训练,但提供了已测试的训练代码和数据集,期待有更多资源投入到该项目中。

开发 终端代理