这篇论文介绍了树形注意力机制,一种在GPU集群上进行长上下文注意力计算的新方法。该方法通过将注意力计算并行化,并利用树形结构减少跨设备通信,从而显著提高了计算效率。实验结果表明,树形注意力机制比其他方法(如环形注意力机制)快8倍,同时所需的通信量更少,峰值内存占用也更低。