本文介绍了三种新的注意力机制,它们在效率和学习能力方面优于标准的多头注意力,从而提高了Transformer模型的性能和更广泛的部署能力。文章提出了优化注意力、高效注意力和超级注意力三种机制,并在MNIST、CIFAR100、IMDB电影评论和亚马逊评论数据集上进行了评估,证明了其优越性。