规模胜过一切:AI智能体在软件工程基准测试中取得突破

2025-01-08
规模胜过一切:AI智能体在软件工程基准测试中取得突破

CodeStory团队通过大规模测试时间推理,使用Sonnet 3.5 LLM和简单的工具集,在swebench-verified基准测试中取得了领先地位,解决了62.2%的问题。他们放弃了最初的MCTS框架,转而采用了一种更简单的基于规模的策略:通过多个虚拟机和Anthropic账户,大量运行代理,最终证明了计算规模在解决复杂软件工程问题上的优势,即使是对于小型团队也是如此。这项研究再次印证了“规模胜过一切”的真理,为AI在软件工程领域的应用提供了新的思路。

阅读更多
开发

Aide:开源AI原生IDE

2024-11-06
Aide:开源AI原生IDE

Aide是一款开源的AI原生IDE,由Codestory开发。它利用先进的代理框架,能够主动提出修复建议,并通过LSP工具引入相关上下文。Aide允许开发者在多个文件上进行AI编辑,并通过VS Code原生检查点方便回滚。它还支持与AI结对编程、快速调用和上下文持久化等功能,旨在提高开发效率。

阅读更多
24
未分类