Les LLM échouent avec grâce : les performances en contexte long se dégradent même dans les tâches simples

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-07-15

Cette recherche remet en question l'hypothèse courante selon laquelle les grands modèles de langage (LLM) offrent des performances uniformes sur les tâches à long contexte. En étendant le benchmark Needle in a Haystack et en introduisant des variables telles que la correspondance sémantique et les distracteurs, les chercheurs ont constaté que, même dans des conditions simplifiées, les performances du modèle se dégradent à mesure que la longueur de l'entrée augmente. Cela a été confirmé dans le cadre de questions-réponses conversationnelles et d'une tâche de réplication de mots répétés, révélant les limites des capacités de contexte long des LLM et suggérant des défis potentiels dans les applications du monde réel.