SWE-bench:大規模言語モデルは現実世界のGitHubの問題を解決できるか?
2025-01-08
SWE-benchは、大規模言語モデルが現実世界のGitHubの問題を自動的に解決できる能力を評価するためのベンチマークデータセットです。研究者たちは、12の人気のあるPythonリポジトリから2294のIssue-Pull Requestペアを収集し、ユニットテストを使用してソリューションを検証しました。最新のリーダーボードは、さまざまなモデルが異なる成功率を達成していることを示しており、解決率が50%を超えるモデルもあります。このプロジェクトは、軽量版データセットや事前学習済みモデルなど、評価と再現性を容易にするためのリソースを提供しています。
開発
コード修正