La escala lo supera todo: Agente de IA alcanza SOTA en swebench-verified

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

La escala lo supera todo: Agente de IA alcanza SOTA en swebench-verified

2025-01-08

CodeStory logró resultados de vanguardia en el benchmark swebench-verified, resolviendo el 62,2% de los problemas mediante inferencia a gran escala en el tiempo de prueba. Utilizaron el LLM Sonnet 3.5 y un conjunto de herramientas simple, abandonando un marco MCTS inicial en favor de la escalabilidad. Al ejecutar numerosos agentes en varias VM y cuentas de Anthropic, demostraron el poder de la escala para resolver problemas complejos de ingeniería de software, incluso para equipos pequeños. Esto refuerza la 'lección amarga' de que la escala lo supera todo, ofreciendo un nuevo paradigma para la IA en la ingeniería de software.

(aide.dev)

Desarrollo

Estudiante de la UW se enfrenta a la expulsión por una aplicación de intercambio de cursos

El Efecto Trinquete: Cómo los Ingenieros Construyen Reputación en las Grandes Empresas de Tecnología