本文介绍了Mamba-2模型的核心,即结构化状态空间对偶性(SSD)模型。SSD模型是对Mamba-1的改进,通过将递归矩阵A限制为标量-恒等结构,在保持高效性的同时,可以使用矩阵乘法进行计算,从而显著提高了训练速度。与Mamba-1相比,Mamba-2允许更大的状态维度,并在多查询关联回忆等合成任务上表现更出色。