规模胜过一切：AI智能体在软件工程基准测试中取得突破

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

规模胜过一切：AI智能体在软件工程基准测试中取得突破

2025-01-08

CodeStory团队通过大规模测试时间推理，使用Sonnet 3.5 LLM和简单的工具集，在swebench-verified基准测试中取得了领先地位，解决了62.2%的问题。他们放弃了最初的MCTS框架，转而采用了一种更简单的基于规模的策略：通过多个虚拟机和Anthropic账户，大量运行代理，最终证明了计算规模在解决复杂软件工程问题上的优势，即使是对于小型团队也是如此。这项研究再次印证了“规模胜过一切”的真理，为AI在软件工程领域的应用提供了新的思路。

(aide.dev)

开发

华盛顿大学学生因开发课程互换应用面临开除

大厂工程师声誉的阶梯效应