大型语言模型代码生成能力评估基准测试论文大爆发

2025-02-11
大型语言模型代码生成能力评估基准测试论文大爆发

最近arXiv上涌现出一批评估大型语言模型(LLM)代码生成能力的基准测试论文。这些论文涵盖了LLM解决真实世界GitHub问题、生成自调用代码、使用API、稳定性分析、以及针对软件开发生命周期各个阶段的评估等多个方面。研究者们开发了各种基准测试集,例如SWE-bench、HumanEval Pro、SEAL、DevEval等,并提出了相应的评估指标,旨在更全面地评估LLM的代码生成能力,推动该领域的发展。

开发