LLM에서 평평해진 보정 곡선: 사라진 신뢰도 신호

2025-05-07
LLM에서 평평해진 보정 곡선: 사라진 신뢰도 신호

대규모 언어 모델(LLM)의 학습 후 과정은 안전 지침을 위반하는 콘텐츠를 접했을 때 모델의 동작에 편향을 줄 수 있습니다. 이 글에서는 OpenAI의 GPT-4를 예로 들어 학습 후 모델 보정의 실패를 살펴보고, 틀렸을 때조차 과도한 자신감으로 이어지는 것을 보여줍니다. 이는 콘텐츠 조정 시스템에서 많은 오탐을 발생시켜 사람의 검토 작업량을 증가시킵니다. 저자들은 GPT-4o에서 GPT-4.1-mini로 업그레이드하면서 신뢰도 신호가 사라졌고, 이를 복구하려는 시도는 모두 실패했다는 것을 발견했습니다. 이는 모델 증류 중 정보 손실 때문일 가능성이 있습니다. 이를 해결하기 위해 저자들은 상세한 정책 설명과 인용을 요구하고, 허위 출력을 찾는 필터링 시스템 등의 대안적인 보호 장치를 구현했습니다. 이 글은 모델 업그레이드가 단순한 성능 향상이 아니라 엔지니어가 모델의 불확실성을 다시 공개하도록 요구하는 분포 변화를 일으킨다는 점을 강조합니다. 이를 통해 관련 위험을 줄일 수 있습니다.