Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

SWE-bench: Können große Sprachmodelle reale GitHub-Probleme lösen?

2025-01-08

SWE-bench ist ein Benchmark-Datensatz, der die Fähigkeit großer Sprachmodelle bewertet, reale GitHub-Probleme automatisch zu lösen. Die Forscher haben 2294 Issue-Pull-Request-Paare aus 12 beliebten Python-Repositories zusammengestellt und die Lösungen mithilfe von Unit-Tests validiert. Die aktuelle Rangliste zeigt verschiedene Modelle mit unterschiedlichen Erfolgsraten, wobei einige eine Auflösungsrate von über 50 % erreichen. Das Projekt bietet Ressourcen wie eine Lite-Version und vortrainierte Modelle für eine einfachere Bewertung und Reproduzierbarkeit.

(www.swebench.com)

Entwicklung Code-Reparatur