SWE-Bench Pro: Ein anspruchsvoller Benchmark zur Bewertung von LLMs in der Softwareentwicklung

2025-09-22
SWE-Bench Pro: Ein anspruchsvoller Benchmark zur Bewertung von LLMs in der Softwareentwicklung

SWE-Bench Pro ist ein neuer Benchmark zur Bewertung großer Sprachmodelle (LLMs) und Agents bei langfristigen Softwareentwicklungsaufgaben. Bei einem gegebenen Codebase und Problem muss das Modell einen Patch generieren, der das beschriebene Problem behebt. Inspiriert von SWE-Bench, verwendet es Docker und Modal für reproduzierbare Auswertungen und erfordert von den Benutzern die Einrichtung einer Docker-Umgebung und Modal-Anmeldeinformationen, um das Auswertungsskript auszuführen.

Entwicklung