Au-delà de l'attention : progrès récents dans les architectures de transformateurs efficaces

2025-05-23

Cet article explore plusieurs avancées clés dans les architectures de transformateurs qui vont au-delà du mécanisme d'attention original. Ces techniques visent principalement à réduire la complexité computationnelle et les besoins en mémoire. Parmi les exemples, citons l'attention de requête groupée (GQA) qui réduit l'utilisation de la mémoire en partageant les projections clé/valeur ; l'attention latente multi-têtes (MHA) qui utilise des vecteurs latents pour diminuer la complexité computationnelle ; Flash Attention qui optimise la vitesse grâce à une gestion intelligente de la mémoire ; et l'attention en anneau (Ring Attention) qui utilise le parallélisme multi-GPU pour les séquences extrêmement longues. L'article traite également de la pré-normalisation, de RMSNorm, des fonctions d'activation SwiGLU et des méthodes de normalisation, ainsi que du réchauffement du taux d'apprentissage, de la planification en cosinus, du mélange d'experts (MoE), de la prédiction multi-jetons et du décodage spéculatif. Ces techniques repoussent collectivement les limites des transformateurs, leur permettant de gérer des séquences plus longues et des données de dimension supérieure plus efficacement, améliorant ainsi à la fois la vitesse et les performances.