強化学習による長期間ターミナルエージェントのトレーニング:Terminal-Bench-RL
2025-07-29
このプロジェクトは、長期間のターミナルベースのコーディングエージェントをトレーニングするための、4ノードにわたる32個のH100 GPUにスケーリングする安定した強化学習トレーニングインフラストラクチャの作成について詳述しています。著者は、Terminal-Agent-Qwen3-32bを開発し、トレーニング*なし*でQwen3エージェントのterminal-benchで最高スコアを達成しました!rLLMフレームワークに基づいて構築されており、カスタム環境とインフラストラクチャが含まれています。約100万ドルのコンピューティングリソースを使用して、エージェントはterminal-benchのリーダーボードで19位を獲得し、スタンフォードとOpenAIのいくつかのトップエージェントを上回りました。洗練されたシステムプロンプトとカスタムツールがエージェントの動作をガイドします。完全なトレーニング実行は費用がかかりすぎるため、コードとデータセットが提供されており、より多くのコンピューティングリソースによるさらなる研究を促しています。
開発
ターミナルエージェント