大型语言模型作为马尔可夫链

2024-12-01

本文将拥有大小为T的词汇表和大小为K的上下文窗口的通用自回归语言模型与在大小为O(T^K)的有限状态空间上定义的马尔可夫链进行了等效性分析。文中探讨了LLM推理能力的马尔可夫链平稳分布的存在性、收敛速度以及温度对收敛速度的影响,并推导了预训练和上下文泛化界限。最后, 通过在几个最新的LLM上进行实验,说明了理论保证如何捕捉实际观察到的行为。

3
未分类