Abflachende Kalibrierungskurven in LLMs: Das verschwundene Vertrauenssignal
Post-Training-Prozesse für Large Language Models (LLMs) können ihr Verhalten verzerren, wenn sie auf Inhalte stoßen, die gegen Sicherheitsrichtlinien verstoßen. Dieser Artikel verwendet OpenAIs GPT-4 als Beispiel und untersucht das Versagen der Modellkalibrierung nach dem Training, was zu Überzeugung führt, selbst wenn das Modell falsch liegt. Dies führt zu signifikanten Fehlalarmen in Content-Moderationssystemen und erhöht den Arbeitsaufwand für menschliche Prüfer. Die Autoren stellten fest, dass ein Upgrade von GPT-4o auf GPT-4.1-mini zu einem verschwundenen Vertrauenssignal führte, wobei Versuche, es wiederherzustellen, fehlschlugen. Dies ist wahrscheinlich auf Informationsverlust während der Modelldestillation zurückzuführen. Um dies zu beheben, implementierten sie alternative Schutzmaßnahmen, wie die Anforderung detaillierter Richtlinien-Erklärungen und -Zitate sowie Filtersysteme, um fehlerhafte Ausgaben zu erkennen. Der Artikel hebt hervor, dass Modell-Upgrades nicht nur Leistungsverbesserungen sind, sondern auch zu verteilungsbezogenen Veränderungen führen, die es den Ingenieuren ermöglichen, die Unsicherheit des Modells wieder aufzudecken und so die damit verbundenen Risiken zu mindern.