Curvas de Calibração Planas em LLMs: O Sinal de Confiança Desaparecido

2025-05-07
Curvas de Calibração Planas em LLMs: O Sinal de Confiança Desaparecido

Os processos pós-treinamento para Modelos de Linguagem Grandes (LLMs) podem enviesar seu comportamento ao encontrar conteúdo que viola as diretrizes de segurança. Este artigo, usando o GPT-4 da OpenAI como exemplo, explora a falha da calibração do modelo pós-treinamento, levando à superconfiança mesmo quando errado. Isso causa falsos positivos significativos em sistemas de moderação de conteúdo, aumentando a carga de trabalho de revisão humana. Os autores descobriram que a atualização do GPT-4o para o GPT-4.1-mini resultou em um sinal de confiança que desapareceu, com tentativas de recuperá-lo falhando. Isso provavelmente se deve à perda de informações durante a destilação do modelo. Para resolver isso, eles implementaram salvaguardas alternativas, como exigir explicações detalhadas de políticas e citações, e sistemas de filtragem para capturar saídas espúrias. O artigo destaca que as atualizações de modelo não são apenas aumentos de desempenho; elas causam mudanças distributivas que exigem que os engenheiros exponham novamente a incerteza do modelo, mitigando os riscos associados.

Leia mais