原生稀疏注意力机制:硬件对齐和原生可训练

2025-08-02
原生稀疏注意力机制:硬件对齐和原生可训练

处理长文本一直是自然语言处理的挑战。这篇ACL 2025论文提出了一种名为NSA的原生稀疏注意力机制。NSA巧妙地结合了算法创新和硬件优化,通过动态分层稀疏策略(粗粒度令牌压缩和细粒度令牌选择)在保证全局上下文感知和局部精度的同时,显著提高了计算效率。NSA不仅实现了端到端训练,降低了预训练计算成本,而且在各种基准测试中,其性能超过或与全注意力模型持平,尤其在64k长度序列的解码、前向传播和反向传播速度上大幅提升。

阅读更多

图语言模型

2024-09-03
图语言模型

这篇论文介绍了一种名为图语言模型(GLM)的新型语言模型,它结合了语言模型(LM)和图神经网络(GNN)的优势,以更好地处理图和文本数据。GLM 利用预训练的 LM 初始化参数,以增强对单个图概念和三元组的理解,并设计架构以结合图偏差,从而促进图内的有效知识分布。在关系分类任务上的实证评估表明,GLM 嵌入在监督和零样本设置中都优于基于 LM 和 GNN 的基线。

阅读更多
未分类