SWE-bench：大型语言模型能否解决真实的GitHub问题？

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

SWE-bench：大型语言模型能否解决真实的GitHub问题？

2025-01-08

SWE-bench是一个评估大型语言模型解决真实GitHub问题的基准数据集。研究人员收集了来自12个流行Python仓库的2294个Issue-Pull Request对，并通过单元测试验证模型生成的补丁。最新的排行榜显示，多种模型取得了不同程度的成功，其中一些模型的解决率已超过50%。该项目还提供了多种资源，包括精简版数据集和预训练模型，方便研究人员进行评估和复现。

(www.swebench.com)

开发

大厂工程师声誉的阶梯效应

洛杉矶山火肆虐，NASA喷气推进实验室紧急关闭