Webtagr - Sumário de Notícias de Tecnologia

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Curvas de Calibração Planas em LLMs: O Sinal de Confiança Desaparecido

2025-05-07

Os processos pós-treinamento para Modelos de Linguagem Grandes (LLMs) podem enviesar seu comportamento ao encontrar conteúdo que viola as diretrizes de segurança. Este artigo, usando o GPT-4 da OpenAI como exemplo, explora a falha da calibração do modelo pós-treinamento, levando à superconfiança mesmo quando errado. Isso causa falsos positivos significativos em sistemas de moderação de conteúdo, aumentando a carga de trabalho de revisão humana. Os autores descobriram que a atualização do GPT-4o para o GPT-4.1-mini resultou em um sinal de confiança que desapareceu, com tentativas de recuperá-lo falhando. Isso provavelmente se deve à perda de informações durante a destilação do modelo. Para resolver isso, eles implementaram salvaguardas alternativas, como exigir explicações detalhadas de políticas e citações, e sistemas de filtragem para capturar saídas espúrias. O artigo destaca que as atualizações de modelo não são apenas aumentos de desempenho; elas causam mudanças distributivas que exigem que os engenheiros exponham novamente a incerteza do modelo, mitigando os riscos associados.