LLMにおける平坦化された較正曲線:消えた信頼度シグナル

2025-05-07
LLMにおける平坦化された較正曲線:消えた信頼度シグナル

大規模言語モデル(LLM)の訓練後プロセスは、安全ガイドラインに違反するコンテンツに遭遇した場合、その動作にバイアスをかける可能性があります。この記事では、OpenAIのGPT-4を例に、訓練後のモデル較正の失敗を検討し、間違っていても過剰な自信につながることを示しています。これは、コンテンツモデレーションシステムにおいて多くの偽陽性を引き起こし、人間のレビューの作業負荷を増大させます。著者は、GPT-4oからGPT-4.1-miniへのアップグレードにより、信頼度シグナルが消失し、それを回復しようとする試みはすべて失敗したことを発見しました。これは、モデル蒸留中の情報損失が原因である可能性があります。これを解決するために、彼らは、詳細なポリシーの説明と引用を求めること、偽の出力を見つけるためのフィルタリングシステムなど、代替の保護策を実装しました。この記事は、モデルのアップグレードは単なるパフォーマンスの向上ではなく、エンジニアがモデルの不確実性を再公開することを要求する分布の変化を引き起こすことを強調しています。これにより、関連するリスクを軽減することができます。