规模胜过一切:AI智能体在软件工程基准测试中取得突破
2025-01-08
CodeStory团队通过大规模测试时间推理,使用Sonnet 3.5 LLM和简单的工具集,在swebench-verified基准测试中取得了领先地位,解决了62.2%的问题。他们放弃了最初的MCTS框架,转而采用了一种更简单的基于规模的策略:通过多个虚拟机和Anthropic账户,大量运行代理,最终证明了计算规模在解决复杂软件工程问题上的优势,即使是对于小型团队也是如此。这项研究再次印证了“规模胜过一切”的真理,为AI在软件工程领域的应用提供了新的思路。
(aide.dev)
开发