LLMs scheitern an der Generalisierung über die Trainingsdaten hinaus
Forscher testeten die Generalisierungsfähigkeit großer Sprachmodelle (LLMs) an Aufgaben, Formaten und Längen, die über ihre Trainingsdaten hinausgingen. Die Ergebnisse zeigten einen dramatischen Rückgang der Genauigkeit, je stärker die Aufgabe von der Trainingsverteilung abwich. Selbst bei korrekten Antworten zeigten die Modelle oft ein unlogisches oder mit ihren Antworten inkonsistentes Denken. Dies deutet darauf hin, dass das Chain-of-Thought (CoT)-Denken in LLMs kein echtes Textverständnis widerspiegelt, sondern eher die Replikation von Mustern, die während des Trainings gelernt wurden. Die Leistung verschlechterte sich auch stark, wenn Eingaben mit unterschiedlichen Längen oder unbekannten Symbolen präsentiert wurden, was die Grenzen der Generalisierung weiter verdeutlicht.