大型语言模型代码生成能力评估：MultiCodeBench 横空出世

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

大型语言模型代码生成能力评估：MultiCodeBench 横空出世

2024-12-30

近期，基于代码大型语言模型（LLM）的AI编程助手日益普及，大幅提升了开发效率。然而，现有代码生成基准测试主要关注通用场景，忽略了LLM在特定应用领域的性能。为此，研究人员提出了MultiCodeBench，这是一个包含2400个编程任务的新基准，涵盖12个热门软件开发领域和15种编程语言。通过对11个主流LLM的评估，MultiCodeBench揭示了不同领域LLM的代码生成能力，为开发者选择合适的LLM提供了实用指导，并为模型开发者改进特定领域代码生成能力提供了方向。

(arxiv.org)

开发

科技进步与儿童学习：一台电脑的时代变迁

佛罗里达州上诉法院驳回清洁水权倡议