AIエージェントが人間のようにコンピューターを使うことを学習

2025-02-06
AIエージェントが人間のようにコンピューターを使うことを学習

r1-computer-useプロジェクトは、ファイルシステム、Webブラウザ、コマンドラインなど、人間のようにコンピューターを操作できるAIエージェントを訓練することを目指しています。DeepSeek-R1の強化学習技術に触発されたこのプロジェクトは、従来のハードコーディングされた検証器の代わりに、エージェントのアクションの正しさや有用性を評価するためのニューラル報酬モデルを使用しています。トレーニングパイプラインは、専門家のデモンストレーションから報酬モデルによるポリシー最適化とファインチューニングまで、複数の段階を含み、最終的には複雑なタスクを実行できる安全で信頼性の高いAIエージェントを目指しています。