強化学習による長期間ターミナルエージェントのトレーニング：Terminal-Bench-RL

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-07-29

このプロジェクトは、長期間のターミナルベースのコーディングエージェントをトレーニングするための、4ノードにわたる32個のH100 GPUにスケーリングする安定した強化学習トレーニングインフラストラクチャの作成について詳述しています。著者は、Terminal-Agent-Qwen3-32bを開発し、トレーニング*なし*でQwen3エージェントのterminal-benchで最高スコアを達成しました！rLLMフレームワークに基づいて構築されており、カスタム環境とインフラストラクチャが含まれています。約100万ドルのコンピューティングリソースを使用して、エージェントはterminal-benchのリーダーボードで19位を獲得し、スタンフォードとOpenAIのいくつかのトップエージェントを上回りました。洗練されたシステムプロンプトとカスタムツールがエージェントの動作をガイドします。完全なトレーニング実行は費用がかかりすぎるため、コードとデータセットが提供されており、より多くのコンピューティングリソースによるさらなる研究を促しています。