Les LLM échouent à généraliser au-delà des données d'entraînement
Des chercheurs ont testé les capacités de généralisation des grands modèles de langage (LLM) sur des tâches, des formats et des longueurs dépassant leurs données d'entraînement. Les résultats ont montré une chute spectaculaire de la précision à mesure que la tâche divergeait de la distribution d'entraînement. Même en fournissant des réponses correctes, les modèles présentaient souvent un raisonnement illogique ou un raisonnement incohérent avec leurs réponses. Cela suggère que le raisonnement en chaîne (CoT) dans les LLM ne reflète pas une véritable compréhension du texte, mais plutôt la réplication de schémas appris pendant l'entraînement. Les performances se sont également dégradées fortement lorsqu'ils ont été confrontés à des entrées de longueurs variables ou à des symboles inconnus, soulignant encore les limites de la généralisation.