Attention par Produit Tensoriel : Tout ce dont vous avez besoin

L'adaptation à l'échelle des modèles linguistiques pour gérer des séquences d'entrée plus longues nécessite généralement de grands caches clé-valeur (KV), entraînant une surcharge mémoire importante pendant l'inférence. Cet article propose l'Attention par Produit Tensoriel (TPA), un nouveau mécanisme d'attention qui utilise des décompositions tensorielles pour représenter de manière compacte les requêtes, les clés et les valeurs, réduisant ainsi considérablement la taille du cache KV pendant l'inférence. En factorisant ces représentations en composants de faible rang contextuels (factorisation contextuelle) et en les intégrant de manière transparente avec RoPE, la TPA améliore la qualité du modèle tout en maintenant l'efficacité mémoire. Sur la base de la TPA, les auteurs introduisent le Transformateur d'Attention par Produit Tensoriel (T6), une nouvelle architecture de modèle pour la modélisation de séquences. Une évaluation empirique approfondie sur des tâches de modélisation linguistique montre que T6 surpasse les modèles de base standard du Transformer, notamment MHA, MQA, GQA et MLA, sur diverses métriques, notamment la perplexité et une gamme de benchmarks d'évaluation reconnus. Notamment, l'efficacité mémoire de la TPA permet le traitement de séquences beaucoup plus longues sous des contraintes de ressources fixes, ce qui répond à un défi d'évolutivité critique dans les modèles linguistiques modernes. Le code est disponible.
Lire plus