大型语言模型校准曲线扁平化:丢失的置信度信号
2025-05-07

大型语言模型(LLM)的后训练过程可能导致模型在遇到违反其安全准则的内容时出现偏差。文章以OpenAI的GPT-4为例,探讨了模型校准在后训练过程中失效的问题,导致模型即使错误时也极度自信。这种现象在内容审核系统中会导致大量误报,增加人工审核负担。作者发现,从GPT-4o升级到GPT-4.1-mini后,模型输出的置信度信号消失了,各种尝试恢复信号均失败。这可能是由于模型蒸馏导致信息丢失。为了解决这个问题,作者团队实施了替代方案,例如要求模型提供详细的政策解释和引用,以及过滤系统来捕捉虚假输出。文章强调,模型升级不只是性能提升,还会导致分布变化,需要工程师重新暴露模型的不确定性,避免由此带来的风险。