規模がすべて:AIエージェントがswebench-verifiedでSOTAを達成

2025-01-08

CodeStoryは、大規模なテスト時間推論を活用することで、swebench-verifiedベンチマークで最先端の結果を達成し、62.2%の問題を解決しました。彼らはSonnet 3.5 LLMとシンプルなツールセットを使用し、初期のMCTSフレームワークをスケーラビリティのために放棄しました。複数の仮想マシンとAnthropicアカウントで多数のエージェントを実行することで、小規模なチームであっても、複雑なソフトウェアエンジニアリングの問題解決における規模の力を実証しました。これは、「規模がすべて」という「苦い教訓」を強化し、ソフトウェアエンジニアリングにおけるAIのための新しいパラダイムを提供します。

開発