状态空间模型中的状态错觉

2024-06-07

本文探讨了状态空间模型(SSM)在构建大型语言模型(LLM)方面的表达能力。研究发现,尽管SSM在架构上类似于循环神经网络(RNN),但其表达能力与Transformer相似,无法表达复杂度超过TC^0的计算,例如排列组合。这意味着SSM无法解决简单的状态跟踪问题,例如跟踪国际象棋的移动、评估代码或跟踪长篇叙述中的实体。实验证明,Mamba风格的SSM在状态跟踪方面确实存在困难。因此,尽管SSM具有循环公式,但其“状态”只是一种错觉,其表达能力的局限性可能会从根本上限制其解决现实世界状态跟踪问题的能力。

60
未分类 状态跟踪