评估并非万能：大型语言模型评估的局限性

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

评估并非万能：大型语言模型评估的局限性

2025-03-03

本文批判了依赖评估来保证大型语言模型（LLM）软件性能的常见做法。作者指出，虽然评估在比较不同基础模型和单元测试中有一定作用，但其在实际应用中存在诸多问题：难以构建全面测试数据集；自动评分方法存在局限性；仅评估基础模型无法反映整个系统的性能；评估结果的平均化掩盖了严重错误。作者认为，评估无法解决LLM固有的“长尾问题”，即实际应用中总会出现未经测试的异常情况。最后，作者呼吁改变LLM的开发模式，不能仅仅依靠评估来保证性能，而应重视用户测试和更全面的系统测试。

(www.marble.onl)

Chirp：声波数据传输应用

arXivLabs：与社区协作者共建arXiv新功能