La escala lo supera todo: Agente de IA alcanza SOTA en swebench-verified
2025-01-08
CodeStory logró resultados de vanguardia en el benchmark swebench-verified, resolviendo el 62,2% de los problemas mediante inferencia a gran escala en el tiempo de prueba. Utilizaron el LLM Sonnet 3.5 y un conjunto de herramientas simple, abandonando un marco MCTS inicial en favor de la escalabilidad. Al ejecutar numerosos agentes en varias VM y cuentas de Anthropic, demostraron el poder de la escala para resolver problemas complejos de ingeniería de software, incluso para equipos pequeños. Esto refuerza la 'lección amarga' de que la escala lo supera todo, ofreciendo un nuevo paradigma para la IA en la ingeniería de software.
(aide.dev)
Desarrollo