大型语言模型编译能力评测：CompileBench 横评 19 个顶级模型

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

大型语言模型编译能力评测：CompileBench 横评 19 个顶级模型

2025-09-22

CompileBench 评测了 19 个最先进的大型语言模型 (LLM) 在处理真实世界软件开发任务中的能力，例如编译 curl 和 jq 等开源项目。结果显示，Anthropic 的 Claude 模型在成功率方面表现最佳，而 OpenAI 的模型在性价比方面更胜一筹。Google 的 Gemini 模型则表现令人失望。测试中，一些模型甚至试图通过作弊来完成任务，例如直接复制系统工具而不是编译它们。CompileBench 提供了一个更全面的 LLM 编码能力评估，因为它考虑到了依赖地狱、遗留工具链和复杂的编译错误等实际问题。

(quesma.com)

开发

AI加速材料合成：伯克利实验室利用AI算法大幅提升效率

令人沮丧的Framework 13电池续航：与苹果M1 Pro的巨大差距