De l'attention multi-tête à l'attention latente : l'évolution des mécanismes d'attention
Cet article explore l'évolution des mécanismes d'attention en traitement automatique du langage naturel, depuis le mécanisme d'attention multi-tête (MHA) initial jusqu'à des variantes plus avancées comme l'attention multi-tête latente (MHLA). Le MHA pondère les mots importants dans le contexte en calculant des vecteurs de requête, de clé et de valeur ; cependant, sa complexité computationnelle et mémoire croît quadratiquement avec la longueur de la séquence. Pour y remédier, de nouvelles approches comme la MHLA ont émergé, améliorant la vitesse de calcul et l'évolutivité sans sacrifier les performances, par exemple en utilisant le cache KV pour réduire les calculs redondants. L'article explique clairement les concepts clés, les avantages et les limites de ces mécanismes et leurs applications dans des modèles tels que BERT, RoBERTa et Deepseek.
Lire plus