Attention Creuse Natif : Alignement Matériel et Entraînement Natif
La modélisation de contexte long reste un défi en PNL. Cet article d'ACL 2025 présente NSA, un mécanisme d'attention creuse entraîné nativement. NSA combine intelligemment des innovations algorithmiques avec des optimisations alignées sur le matériel. En utilisant une stratégie creuse hiérarchique dynamique (compression de jetons à grain grossier et sélection de jetons à grain fin), il réalise des gains d'efficacité significatifs tout en préservant la conscience du contexte global et la précision locale. NSA permet un entraînement de bout en bout, réduisant les coûts de pré-entraînement, et égale ou dépasse les modèles d'attention complète sur plusieurs benchmarks, montrant des accélérations substantielles sur les séquences de 64k de longueur lors du décodage, de la propagation avant et de la propagation arrière.
Lire plus