Skalierung schlägt alles: KI-Agent erreicht SOTA auf swebench-verified
2025-01-08
CodeStory erzielte Spitzenergebnisse beim swebench-verified Benchmark und löste 62,2 % der Probleme durch massive Inferenz während der Testzeit. Sie verwendeten das LLM Sonnet 3.5 und einen einfachen Toolset und gaben ein anfängliches MCTS-Framework zugunsten von Skalierbarkeit auf. Durch den Einsatz zahlreicher Agents auf mehreren VMs und Anthropic-Konten wurde die Leistungsfähigkeit der Skalierung bei der Lösung komplexer Softwareentwicklungsprobleme selbst für kleine Teams demonstriert. Dies unterstreicht die „bittere Lehre“, dass Skalierung alles übertrifft und bietet ein neues Paradigma für KI in der Softwareentwicklung.
(aide.dev)
Entwicklung