Webtagr - 科技资讯摘要

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

2025-08-02

处理长文本一直是自然语言处理的挑战。这篇ACL 2025论文提出了一种名为NSA的原生稀疏注意力机制。NSA巧妙地结合了算法创新和硬件优化，通过动态分层稀疏策略（粗粒度令牌压缩和细粒度令牌选择）在保证全局上下文感知和局部精度的同时，显著提高了计算效率。NSA不仅实现了端到端训练，降低了预训练计算成本，而且在各种基准测试中，其性能超过或与全注意力模型持平，尤其在64k长度序列的解码、前向传播和反向传播速度上大幅提升。

图语言模型

2024-09-03

这篇论文介绍了一种名为图语言模型（GLM）的新型语言模型，它结合了语言模型（LM）和图神经网络（GNN）的优势，以更好地处理图和文本数据。GLM 利用预训练的 LM 初始化参数，以增强对单个图概念和三元组的理解，并设计架构以结合图偏差，从而促进图内的有效知识分布。在关系分类任务上的实证评估表明，GLM 嵌入在监督和零样本设置中都优于基于 LM 和 GNN 的基线。

未分类

原生稀疏注意力机制：硬件对齐和原生可训练

图语言模型