Webtagr - Sumário de Notícias de Tecnologia

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Escala supera tudo: Agente de IA atinge SOTA no swebench-verified

2025-01-08

A CodeStory alcançou resultados de ponta no benchmark swebench-verified, resolvendo 62,2% dos problemas por meio de inferência em larga escala no tempo de teste. Eles usaram o LLM Sonnet 3.5 e um conjunto de ferramentas simples, abandonando uma estrutura MCTS inicial em favor da escalabilidade. Ao executar vários agentes em várias VMs e contas Anthropic, demonstraram o poder da escala na resolução de problemas complexos de engenharia de software, mesmo para equipes pequenas. Isso reforça a 'lição amarga' de que a escala supera tudo, oferecendo um novo paradigma para IA na engenharia de software.