矩阵：大型语言模型的贝叶斯学习模型

矩阵：大型语言模型的贝叶斯学习模型 (arxiv.org)

原文: [2402.03175] The Matrix: A Bayesian learning model for LLMs

该文章介绍了一种名为“矩阵”的贝叶斯学习模型，用于理解大型语言模型的行为。该模型基于预测下一个词元的基本原理，通过构建一个由多项式转移概率矩阵表示的理想生成文本模型，并研究大型语言模型如何逼近这个矩阵。文章还探讨了嵌入与多项式分布之间映射的连续性，并提出了狄利克雷逼近定理来逼近任何先验。此外，文章还证明了大型语言模型的文本生成与贝叶斯学习原理相一致，并深入研究了对上下文学习的影响，特别是解释了为什么上下文学习出现在更大的模型中，其中提示被视为要更新的样本。

贝叶斯学习

上下文学习

多模态学习

专家知识

上一篇: Spotify 全力投入企业和开发者工具业务

下一篇: 免费漫画书日 2024：今年最值得阅读的 11 本书

评论已经关闭！

返回首页