基于 Mamba 的语言模型的实证研究

基于 Mamba 的语言模型的实证研究 (arxiv.org)

原文: [2406.07887] An Empirical Study of Mamba-based Language Models

本文对基于 Mamba 的语言模型进行了实证研究，比较了 8B 参数的 Mamba、Mamba-2 和 Transformer 模型在相同数据集上的性能。研究发现，虽然纯 SSM 在许多任务上与 Transformer 相当或优于 Transformer，但在需要强大的复制能力或上下文学习能力的任务上落后于 Transformer。相比之下，8B Mamba-2-Hybrid 在所有 12 项标准任务上都超过了 8B Transformer，并且预计在推理时生成token的速度要快 8 倍。

上一篇: 题辞的艺术

下一篇: Luma Dream Machine

评论已经关闭！

返回首页