TokenFormer：用模型参数标记化重塑Transformer缩放

TokenFormer：用模型参数标记化重塑Transformer缩放 (arxiv.org)

原文: [2410.23168] TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters

TokenFormer 是一种新型可缩放架构，利用注意力机制处理输入标记和模型参数之间的交互，从而增强架构灵活性。通过将模型参数视为标记，它用标记-参数注意力层取代了 Transformer 中的所有线性投影，其中输入标记充当查询，模型参数充当键和值。这种方法允许模型通过递增添加新的键值参数对，从 1.24 亿个参数扩展到 14 亿个参数，在大大减少训练成本的同时，实现与从头训练的 Transformer 相当的性能。

模型缩放

上一篇: 17世纪，脏话的分水岭

下一篇: 大小写转换时会扩展或收缩的Unicode字符

评论已经关闭！

返回首页