Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

TokenFormer：用模型参数标记化重塑Transformer缩放

2024-11-01

TokenFormer 是一种新型可缩放架构，利用注意力机制处理输入标记和模型参数之间的交互，从而增强架构灵活性。通过将模型参数视为标记，它用标记-参数注意力层取代了 Transformer 中的所有线性投影，其中输入标记充当查询，模型参数充当键和值。这种方法允许模型通过递增添加新的键值参数对，从 1.24 亿个参数扩展到 14 亿个参数，在大大减少训练成本的同时，实现与从头训练的 Transformer 相当的性能。

(arxiv.org)

未分类模型缩放