規模がすべて：AIエージェントがswebench-verifiedでSOTAを達成

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-01-08

CodeStoryは、大規模なテスト時間推論を活用することで、swebench-verifiedベンチマークで最先端の結果を達成し、62.2％の問題を解決しました。彼らはSonnet 3.5 LLMとシンプルなツールセットを使用し、初期のMCTSフレームワークをスケーラビリティのために放棄しました。複数の仮想マシンとAnthropicアカウントで多数のエージェントを実行することで、小規模なチームであっても、複雑なソフトウェアエンジニアリングの問題解決における規模の力を実証しました。これは、「規模がすべて」という「苦い教訓」を強化し、ソフトウェアエンジニアリングにおけるAIのための新しいパラダイムを提供します。

開発