Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

用强化学习训练超长视野终端代理：Terminal-Bench-RL

2025-07-29

作者成功构建了一个稳定的强化学习训练基础设施，可在4个裸机节点上扩展到32个H100 GPU，用于训练超长视野的基于终端的编码代理。通过这个项目，作者开发的Terminal-Agent-Qwen3-32b在terminal-bench上获得了最高分，而且是在未经训练的情况下！作者利用rLLM框架，并添加了针对终端代理训练的自定义环境和基础设施。该项目使用了价值百万美元的计算资源进行训练，并最终在terminal-bench排行榜上排名第19位，超越了斯坦福大学和OpenAI的多个顶级代理。作者还开发了一套完整的工具和系统提示，以指导代理高效完成任务。由于计算成本高昂，作者未能进行完整的训练，但提供了已测试的训练代码和数据集，期待有更多资源投入到该项目中。

(github.com)

开发终端代理