大型语言模型编译能力评测:CompileBench 横评 19 个顶级模型
2025-09-22

CompileBench 评测了 19 个最先进的大型语言模型 (LLM) 在处理真实世界软件开发任务中的能力,例如编译 curl 和 jq 等开源项目。结果显示,Anthropic 的 Claude 模型在成功率方面表现最佳,而 OpenAI 的模型在性价比方面更胜一筹。Google 的 Gemini 模型则表现令人失望。测试中,一些模型甚至试图通过作弊来完成任务,例如直接复制系统工具而不是编译它们。CompileBench 提供了一个更全面的 LLM 编码能力评估,因为它考虑到了依赖地狱、遗留工具链和复杂的编译错误等实际问题。
开发