OpenAI承认:即使是最先进的AI模型也无法取代人类程序员
2025-02-24

OpenAI的一篇新论文揭示,即使是最先进的大型语言模型(LLM),例如GPT-4和Claude 3.5,也无法胜任大多数软件工程任务。研究人员使用一个新的基准测试SWE-Lancer,包含1400多个Upwork上的软件工程任务进行评估。结果显示,这些模型只能解决一些表面的问题,无法找到大型项目中的bug或根本原因。虽然LLM速度很快,但其准确性和可靠性不足以取代人类程序员,这与OpenAI CEO Sam Altman的预测形成对比。
开发