Webtagr - Résumé de news de technologie

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

L'échelle surpasse tout : un agent IA atteint le SOTA sur swebench-verified

2025-01-08

CodeStory a obtenu des résultats de pointe sur le benchmark swebench-verified, en résolvant 62,2 % des problèmes grâce à une inférence massive au moment du test. Ils ont utilisé le LLM Sonnet 3.5 et un ensemble d'outils simples, abandonnant une infrastructure MCTS initiale au profit de l'évolutivité. En exécutant de nombreux agents sur plusieurs VM et comptes Anthropic, ils ont démontré la puissance de l'échelle pour résoudre des problèmes complexes d'ingénierie logicielle, même pour les petites équipes. Ceci renforce la « leçon amère » selon laquelle l'échelle surpasse tout, offrant un nouveau paradigme pour l'IA en ingénierie logicielle.

Lire plus

(aide.dev)

Développement