大型语言模型代码生成能力评估基准测试论文大爆发

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

大型语言模型代码生成能力评估基准测试论文大爆发

2025-02-11

最近arXiv上涌现出一批评估大型语言模型（LLM）代码生成能力的基准测试论文。这些论文涵盖了LLM解决真实世界GitHub问题、生成自调用代码、使用API、稳定性分析、以及针对软件开发生命周期各个阶段的评估等多个方面。研究者们开发了各种基准测试集，例如SWE-bench、HumanEval Pro、SEAL、DevEval等，并提出了相应的评估指标，旨在更全面地评估LLM的代码生成能力，推动该领域的发展。

(www.hackerrank.com)

开发

NOAA：美国气象预报的幕后英雄

arXivLabs：与社区协作者合作的实验项目