SWE-Bench Pro: Ein anspruchsvoller Benchmark zur Bewertung von LLMs in der Softwareentwicklung

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

SWE-Bench Pro: Ein anspruchsvoller Benchmark zur Bewertung von LLMs in der Softwareentwicklung

2025-09-22

SWE-Bench Pro ist ein neuer Benchmark zur Bewertung großer Sprachmodelle (LLMs) und Agents bei langfristigen Softwareentwicklungsaufgaben. Bei einem gegebenen Codebase und Problem muss das Modell einen Patch generieren, der das beschriebene Problem behebt. Inspiriert von SWE-Bench, verwendet es Docker und Modal für reproduzierbare Auswertungen und erfordert von den Benutzern die Einrichtung einer Docker-Umgebung und Modal-Anmeldeinformationen, um das Auswertungsskript auszuführen.

(github.com)

Entwicklung

Alibaba veröffentlicht Qwen3-Omni: Ein natives, durchgängiges multimodales Basismodell

Native Video-Hintergrundbilder kehren zu Windows 11 zurück!