Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Native Sparse Attention: Hardware-Ausgerichtet und Nativ Trainierbar

2025-08-02

Die Modellierung langer Kontexte ist nach wie vor eine Herausforderung in der NLP. Dieser ACL 2025-Artikel stellt NSA vor, einen nativ trainierten Sparse Attention-Mechanismus. NSA kombiniert intelligent algorithmische Innovationen mit hardware-ausgerichteten Optimierungen. Durch eine dynamische hierarchische Sparse-Strategie (grobkörnige Token-Kompression und feinkörnige Token-Selektion) werden erhebliche Effizienzsteigerungen erzielt, während gleichzeitig das globale Kontextbewusstsein und die lokale Präzision erhalten bleiben. NSA ermöglicht ein End-to-End-Training, reduziert die Pre-Training-Kosten und erreicht oder übertrifft Full Attention-Modelle in verschiedenen Benchmarks. Es zeigt erhebliche Beschleunigungen bei Sequenzen mit 64k Länge in Decodierung, Vorwärts- und Rückwärtsausbreitung.

(aclanthology.org)

KI Sparse Attention Langkontextmodellierung