L'échelle surpasse tout : un agent IA atteint le SOTA sur swebench-verified
2025-01-08
CodeStory a obtenu des résultats de pointe sur le benchmark swebench-verified, en résolvant 62,2 % des problèmes grâce à une inférence massive au moment du test. Ils ont utilisé le LLM Sonnet 3.5 et un ensemble d'outils simples, abandonnant une infrastructure MCTS initiale au profit de l'évolutivité. En exécutant de nombreux agents sur plusieurs VM et comptes Anthropic, ils ont démontré la puissance de l'échelle pour résoudre des problèmes complexes d'ingénierie logicielle, même pour les petites équipes. Ceci renforce la « leçon amère » selon laquelle l'échelle surpasse tout, offrant un nouveau paradigme pour l'IA en ingénierie logicielle.
Lire plus
(aide.dev)
Développement