Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

状态空间模型中的状态错觉

2024-06-07

本文探讨了状态空间模型（SSM）在构建大型语言模型（LLM）方面的表达能力。研究发现，尽管SSM在架构上类似于循环神经网络（RNN），但其表达能力与Transformer相似，无法表达复杂度超过TC^0的计算，例如排列组合。这意味着SSM无法解决简单的状态跟踪问题，例如跟踪国际象棋的移动、评估代码或跟踪长篇叙述中的实体。实验证明，Mamba风格的SSM在状态跟踪方面确实存在困难。因此，尽管SSM具有循环公式，但其“状态”只是一种错觉，其表达能力的局限性可能会从根本上限制其解决现实世界状态跟踪问题的能力。

(arxiv.org)

未分类状态跟踪