AI 调试能力不及预期:微软研究揭示代码生成模型的局限性
2025-04-11

微软研究发现,即使是来自OpenAI和Anthropic等顶级AI实验室的模型,在解决软件bug方面也远不如经验丰富的程序员。一项针对九种不同模型的测试表明,即使配备了调试工具,这些模型在SWE-bench Lite基准测试中也难以完成一半以上的调试任务。研究指出,数据稀缺是主要原因,模型缺乏足够代表人类调试过程的训练数据。虽然AI辅助编程工具前景广阔,但这项研究提醒我们,AI在编程领域仍有局限性,不能完全取代人类程序员。
开发