SWE-bench: Können große Sprachmodelle reale GitHub-Probleme lösen?
2025-01-08
SWE-bench ist ein Benchmark-Datensatz, der die Fähigkeit großer Sprachmodelle bewertet, reale GitHub-Probleme automatisch zu lösen. Die Forscher haben 2294 Issue-Pull-Request-Paare aus 12 beliebten Python-Repositories zusammengestellt und die Lösungen mithilfe von Unit-Tests validiert. Die aktuelle Rangliste zeigt verschiedene Modelle mit unterschiedlichen Erfolgsraten, wobei einige eine Auflösungsrate von über 50 % erreichen. Das Projekt bietet Ressourcen wie eine Lite-Version und vortrainierte Modelle für eine einfachere Bewertung und Reproduzierbarkeit.
Entwicklung
Code-Reparatur