LLMs scheitern an der Generalisierung über die Trainingsdaten hinaus

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

LLMs scheitern an der Generalisierung über die Trainingsdaten hinaus

2025-08-12

Forscher testeten die Generalisierungsfähigkeit großer Sprachmodelle (LLMs) an Aufgaben, Formaten und Längen, die über ihre Trainingsdaten hinausgingen. Die Ergebnisse zeigten einen dramatischen Rückgang der Genauigkeit, je stärker die Aufgabe von der Trainingsverteilung abwich. Selbst bei korrekten Antworten zeigten die Modelle oft ein unlogisches oder mit ihren Antworten inkonsistentes Denken. Dies deutet darauf hin, dass das Chain-of-Thought (CoT)-Denken in LLMs kein echtes Textverständnis widerspiegelt, sondern eher die Replikation von Mustern, die während des Trainings gelernt wurden. Die Leistung verschlechterte sich auch stark, wenn Eingaben mit unterschiedlichen Längen oder unbekannten Symbolen präsentiert wurden, was die Grenzen der Generalisierung weiter verdeutlicht.

(arstechnica.com)

Wayland-Bildschirmsperre als Pokémon-Puzzle

Website Anti-Scraping-Mechanismus: Anubis erklärt