评估并非万能:大型语言模型评估的局限性

2025-03-03

本文批判了依赖评估来保证大型语言模型(LLM)软件性能的常见做法。作者指出,虽然评估在比较不同基础模型和单元测试中有一定作用,但其在实际应用中存在诸多问题:难以构建全面测试数据集;自动评分方法存在局限性;仅评估基础模型无法反映整个系统的性能;评估结果的平均化掩盖了严重错误。作者认为,评估无法解决LLM固有的“长尾问题”,即实际应用中总会出现未经测试的异常情况。最后,作者呼吁改变LLM的开发模式,不能仅仅依靠评估来保证性能,而应重视用户测试和更全面的系统测试。

AI