Les LLM échouent avec grâce : les performances en contexte long se dégradent même dans les tâches simples

2025-07-15
Les LLM échouent avec grâce : les performances en contexte long se dégradent même dans les tâches simples

Cette recherche remet en question l'hypothèse courante selon laquelle les grands modèles de langage (LLM) offrent des performances uniformes sur les tâches à long contexte. En étendant le benchmark Needle in a Haystack et en introduisant des variables telles que la correspondance sémantique et les distracteurs, les chercheurs ont constaté que, même dans des conditions simplifiées, les performances du modèle se dégradent à mesure que la longueur de l'entrée augmente. Cela a été confirmé dans le cadre de questions-réponses conversationnelles et d'une tâche de réplication de mots répétés, révélant les limites des capacités de contexte long des LLM et suggérant des défis potentiels dans les applications du monde réel.