大型语言模型代码生成能力评估:MultiCodeBench 横空出世

2024-12-30

近期,基于代码大型语言模型(LLM)的AI编程助手日益普及,大幅提升了开发效率。然而,现有代码生成基准测试主要关注通用场景,忽略了LLM在特定应用领域的性能。为此,研究人员提出了MultiCodeBench,这是一个包含2400个编程任务的新基准,涵盖12个热门软件开发领域和15种编程语言。通过对11个主流LLM的评估,MultiCodeBench揭示了不同领域LLM的代码生成能力,为开发者选择合适的LLM提供了实用指导,并为模型开发者改进特定领域代码生成能力提供了方向。

1
开发