Webtagr - Resumen de noticias de tecnología

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Curvas de Calibración Aplanadas en LLMs: La Señal de Confianza Desaparecida

2025-05-07

Los procesos posteriores al entrenamiento para los Modelos de Lenguaje Grandes (LLMs) pueden sesgar su comportamiento cuando encuentran contenido que viola las directrices de seguridad. Este artículo, usando el GPT-4 de OpenAI como ejemplo, explora el fallo de la calibración del modelo posterior al entrenamiento, lo que lleva a una sobreconfianza incluso cuando está equivocado. Esto provoca falsos positivos significativos en los sistemas de moderación de contenido, aumentando la carga de trabajo de revisión humana. Los autores descubrieron que la actualización del GPT-4o al GPT-4.1-mini resultó en una señal de confianza que desapareció, con intentos de recuperarla fallidos. Esto probablemente se deba a la pérdida de información durante la destilación del modelo. Para solucionar esto, implementaron salvaguardas alternativas, como exigir explicaciones detalladas de las políticas y citas, y sistemas de filtrado para capturar salidas espurias. El artículo destaca que las actualizaciones del modelo no son solo aumentos de rendimiento; causan cambios distributivos que requieren que los ingenieros vuelvan a exponer la incertidumbre del modelo, mitigando los riesgos asociados.