原生稀疏注意力机制:硬件对齐和原生可训练
2025-08-02

处理长文本一直是自然语言处理的挑战。这篇ACL 2025论文提出了一种名为NSA的原生稀疏注意力机制。NSA巧妙地结合了算法创新和硬件优化,通过动态分层稀疏策略(粗粒度令牌压缩和细粒度令牌选择)在保证全局上下文感知和局部精度的同时,显著提高了计算效率。NSA不仅实现了端到端训练,降低了预训练计算成本,而且在各种基准测试中,其性能超过或与全注意力模型持平,尤其在64k长度序列的解码、前向传播和反向传播速度上大幅提升。
阅读更多
AI
长文本建模