Native Sparse Attention: Hardware-Ausgerichtet und Nativ Trainierbar
Die Modellierung langer Kontexte ist nach wie vor eine Herausforderung in der NLP. Dieser ACL 2025-Artikel stellt NSA vor, einen nativ trainierten Sparse Attention-Mechanismus. NSA kombiniert intelligent algorithmische Innovationen mit hardware-ausgerichteten Optimierungen. Durch eine dynamische hierarchische Sparse-Strategie (grobkörnige Token-Kompression und feinkörnige Token-Selektion) werden erhebliche Effizienzsteigerungen erzielt, während gleichzeitig das globale Kontextbewusstsein und die lokale Präzision erhalten bleiben. NSA ermöglicht ein End-to-End-Training, reduziert die Pre-Training-Kosten und erreicht oder übertrifft Full Attention-Modelle in verschiedenen Benchmarks. Es zeigt erhebliche Beschleunigungen bei Sequenzen mit 64k Länge in Decodierung, Vorwärts- und Rückwärtsausbreitung.