Curvas de Calibración Aplanadas en LLMs: La Señal de Confianza Desaparecida
Los procesos posteriores al entrenamiento para los Modelos de Lenguaje Grandes (LLMs) pueden sesgar su comportamiento cuando encuentran contenido que viola las directrices de seguridad. Este artículo, usando el GPT-4 de OpenAI como ejemplo, explora el fallo de la calibración del modelo posterior al entrenamiento, lo que lleva a una sobreconfianza incluso cuando está equivocado. Esto provoca falsos positivos significativos en los sistemas de moderación de contenido, aumentando la carga de trabajo de revisión humana. Los autores descubrieron que la actualización del GPT-4o al GPT-4.1-mini resultó en una señal de confianza que desapareció, con intentos de recuperarla fallidos. Esto probablemente se deba a la pérdida de información durante la destilación del modelo. Para solucionar esto, implementaron salvaguardas alternativas, como exigir explicaciones detalladas de las políticas y citas, y sistemas de filtrado para capturar salidas espurias. El artículo destaca que las actualizaciones del modelo no son solo aumentos de rendimiento; causan cambios distributivos que requieren que los ingenieros vuelvan a exponer la incertidumbre del modelo, mitigando los riesgos asociados.
Leer más