Tensor Product Attention:你需要的一切都在这里
2025-01-22

处理更长输入序列的语言模型通常需要巨大的键值缓存,导致推理过程中的内存开销巨大。这篇论文提出了张量积注意力机制(TPA),它使用张量分解来紧凑地表示查询、键和值,从而显著缩小推理过程中的键值缓存大小。通过将这些表示分解为上下文低秩分量(上下文分解)并与RoPE无缝集成,TPA在提高内存效率的同时提升了模型质量。基于TPA,论文引入了张量积注意力Transformer(T6),这是一种用于序列建模的新型模型架构。大量实验证明,T6在困惑度和各种知名评估基准上都超过了包括MHA、MQA、GQA和MLA在内的标准Transformer基线。TPA的内存效率使得在固定资源约束下处理更长的序列成为可能,解决了现代语言模型中的一个关键可扩展性挑战。
AI
张量积注意力