Pourquoi les LLM échouent catastrophiquement sur les longues conversations : puits d'attention et StreamingLLM

2025-08-09

Des chercheurs ont découvert pourquoi les grands modèles de langage (LLM) échouent catastrophiquement sur les longues conversations : supprimer les anciens jetons pour économiser de la mémoire fait que les modèles produisent des résultats complètement absurdes. Ils ont constaté que les modèles concentrent une attention massive sur les premiers jetons comme des "puits d'attention" – des endroits pour garer l'attention inutilisée, car la fonction softmax exige que les poids soient sommés à 1. Leur solution, StreamingLLM, conserve simplement les 4 premiers jetons de manière permanente tout en faisant glisser la fenêtre pour tout le reste, permettant un traitement stable de plus de 4 millions de jetons au lieu de seulement quelques milliers. Ce mécanisme est désormais intégré à HuggingFace, NVIDIA TensorRT-LLM et aux derniers modèles d'OpenAI. Les modèles open source d'OpenAI utilisent également un mécanisme de puits d'attention similaire, soulignant l'impact pratique de cette recherche.

IA