Escala supera tudo: Agente de IA atinge SOTA no swebench-verified

2025-01-08

A CodeStory alcançou resultados de ponta no benchmark swebench-verified, resolvendo 62,2% dos problemas por meio de inferência em larga escala no tempo de teste. Eles usaram o LLM Sonnet 3.5 e um conjunto de ferramentas simples, abandonando uma estrutura MCTS inicial em favor da escalabilidade. Ao executar vários agentes em várias VMs e contas Anthropic, demonstraram o poder da escala na resolução de problemas complexos de engenharia de software, mesmo para equipes pequenas. Isso reforça a 'lição amarga' de que a escala supera tudo, oferecendo um novo paradigma para IA na engenharia de software.

Leia mais
Desenvolvimento