SWE-bench:大型语言模型能否解决真实的GitHub问题?

2025-01-08

SWE-bench是一个评估大型语言模型解决真实GitHub问题的基准数据集。研究人员收集了来自12个流行Python仓库的2294个Issue-Pull Request对,并通过单元测试验证模型生成的补丁。最新的排行榜显示,多种模型取得了不同程度的成功,其中一些模型的解决率已超过50%。该项目还提供了多种资源,包括精简版数据集和预训练模型,方便研究人员进行评估和复现。

开发