LLaDA:基于扩散模型的全新大语言模型范式
2025-02-20
LLaDA (大型语言扩散模型) 是一种基于掩码扩散模型的全新大语言模型范式,它挑战了现有大语言模型基于自回归机制的观点。LLaDA 通过最大似然估计逼近真实的语言分布,其出色的能力并非源于自回归机制本身,而是源于生成式建模的核心原理。研究表明,LLaDA 在可扩展性方面与自回归基线模型相比具有竞争力,其预训练和指令微调过程采用掩码扩散,并通过扩散采样进行文本生成。
AI