강화 학습을 사용한 장기간 터미널 에이전트 훈련: Terminal-Bench-RL
2025-07-29
이 프로젝트는 장기간 터미널 기반 코딩 에이전트를 훈련하기 위해 4개 노드에 걸쳐 32개의 H100 GPU로 확장되는 안정적인 강화 학습 훈련 인프라 구축에 대한 자세한 내용을 설명합니다. 저자는 Terminal-Agent-Qwen3-32b를 개발하여 *훈련 없이* Qwen3 에이전트의 terminal-bench에서 최고 점수를 달성했습니다! rLLM 프레임워크를 기반으로 구축되었으며, 사용자 지정 환경과 인프라가 포함되어 있습니다. 약 100만 달러의 컴퓨팅 리소스를 사용하여 에이전트는 terminal-bench 리더보드에서 19위를 차지했으며, 스탠포드와 OpenAI의 여러 최고 에이전트를 능가했습니다. 정교한 시스템 프롬프트와 사용자 지정 도구가 에이전트의 동작을 안내합니다. 전체 훈련 실행은 비용이 많이 들기 때문에 코드와 데이터 세트가 제공되며, 더 많은 컴퓨팅 리소스를 사용한 추가 연구를 장려합니다.
개발
터미널 에이전트