本文探讨了BERT和T5等Transformer模型的演变,解释了编码器-解码器、仅编码器和仅解码器模型之间的区别,以及去噪目标在预训练中的作用。作者认为,仅编码器模型如BERT已被更灵活的T5等自回归去噪模型取代,因为后者能够统一处理多种任务。去噪目标作为语言模型预训练的补充目标,可以提高模型在某些任务上的性能,但其本身效率较低。双向注意力在小规模模型中很重要,但在更大规模的模型中则不一定。