这篇论文研究了预训练Transformer模型中各层级的作用。研究发现,Transformer模型的底层和顶层与中间层级不同,但中间层级具有惊人的一致性。文章还发现,某些问题对于跳过层级、以不同于训练顺序运行层级或并行运行层级具有鲁棒性。这些观察表明,即使是冻结的预训练模型,也可以通过跳过层级或并行运行层级来优雅地权衡准确性和延迟。