TokenFormer 是一种新型可缩放架构,利用注意力机制处理输入标记和模型参数之间的交互,从而增强架构灵活性。通过将模型参数视为标记,它用标记-参数注意力层取代了 Transformer 中的所有线性投影,其中输入标记充当查询,模型参数充当键和值。这种方法允许模型通过递增添加新的键值参数对,从 1.24 亿个参数扩展到 14 亿个参数,在大大减少训练成本的同时,实现与从头训练的 Transformer 相当的性能。