Skalierung schlägt alles: KI-Agent erreicht SOTA auf swebench-verified

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Skalierung schlägt alles: KI-Agent erreicht SOTA auf swebench-verified

2025-01-08

CodeStory erzielte Spitzenergebnisse beim swebench-verified Benchmark und löste 62,2 % der Probleme durch massive Inferenz während der Testzeit. Sie verwendeten das LLM Sonnet 3.5 und einen einfachen Toolset und gaben ein anfängliches MCTS-Framework zugunsten von Skalierbarkeit auf. Durch den Einsatz zahlreicher Agents auf mehreren VMs und Anthropic-Konten wurde die Leistungsfähigkeit der Skalierung bei der Lösung komplexer Softwareentwicklungsprobleme selbst für kleine Teams demonstriert. Dies unterstreicht die „bittere Lehre“, dass Skalierung alles übertrifft und bietet ein neues Paradigma für KI in der Softwareentwicklung.

(aide.dev)

Entwicklung

UW-Student droht wegen Kurs-Tausch-App die Expulsion

Der Ratscheneffekt: Wie Ingenieure in großen Tech-Unternehmen ihren Ruf aufbauen