Courbes d'étalonnage aplaties dans les LLMs : le signal de confiance qui a disparu

2025-05-07
Courbes d'étalonnage aplaties dans les LLMs : le signal de confiance qui a disparu

Les processus post-entraînement des grands modèles de langage (LLM) peuvent biaiser leur comportement lorsqu'ils rencontrent un contenu qui viole les directives de sécurité. Cet article, utilisant le GPT-4 d'OpenAI comme exemple, explore la défaillance de l'étalonnage du modèle après l'entraînement, conduisant à une surconfiance même lorsqu'il est erroné. Cela entraîne des faux positifs importants dans les systèmes de modération de contenu, augmentant la charge de travail de révision humaine. Les auteurs ont constaté que la mise à niveau de GPT-4o à GPT-4.1-mini a entraîné la disparition d'un signal de confiance, les tentatives de récupération ayant échoué. Cela est probablement dû à une perte d'informations lors de la distillation du modèle. Pour y remédier, ils ont mis en œuvre des protections alternatives, telles que l'exigence d'explications détaillées des politiques et de citations, ainsi que des systèmes de filtrage pour capturer les sorties fallacieuses. L'article souligne que les mises à niveau des modèles ne sont pas seulement des augmentations de performances ; elles entraînent des changements de distribution qui obligent les ingénieurs à réexposer l'incertitude du modèle, atténuant ainsi les risques associés.

Lire plus