AI能否胜任百万美元的自由职业软件工程?OpenAI最新研究揭晓
2025-04-16
OpenAI的一篇新论文《SWE-Lancer》评估了前沿AI模型在真实软件开发任务中的表现。研究人员使用Upwork上的1400多个自由职业任务(总价值超过100万美元)作为基准,这些任务分为两类:个体贡献者任务(修复bug或构建功能)和工程经理任务(选择最佳解决方案)。结果显示,即使是表现最好的模型Claude 3.5 Sonnet也只完成了33.7%的任务,赚取了约40.3万美元。AI在选择最佳解决方案方面明显优于创建解决方案,这表明AI可能首先会在代码审查和架构决策方面辅助工程团队。该研究为衡量AI的进步提供了具体方法,有助于领导者更好地理解和预测AI的当前能力和影响。
开发