差分Transformer

2024-10-08

本文介绍了差分Transformer模型,该模型通过放大对相关上下文的注意力并消除噪声来解决传统Transformer模型过度关注无关上下文的问题。差分注意力机制通过计算两个独立的softmax注意力图之间的差异来获得注意力分数,从而消除噪声并促进稀疏注意力模式的出现。在语言建模等任务上的实验结果表明,差分Transformer在模型大小和训练数据规模等方面都优于传统的Transformer模型。

25