基于 Mamba 的语言模型的实证研究

2024-06-13

本文对基于 Mamba 的语言模型进行了实证研究,比较了 8B 参数的 Mamba、Mamba-2 和 Transformer 模型在相同数据集上的性能。研究发现,虽然纯 SSM 在许多任务上与 Transformer 相当或优于 Transformer,但在需要强大的复制能力或上下文学习能力的任务上落后于 Transformer。相比之下,8B Mamba-2-Hybrid 在所有 12 项标准任务上都超过了 8B Transformer,并且预计在推理时生成token的速度要快 8 倍。

57
未分类