大型语言模型的涌现行为:参数规模与能力的非线性关系

2025-05-08

大型语言模型(LLM)展现出令人惊讶的涌现行为:当参数数量达到一定规模时,LLM突然能够执行以前无法完成的新任务。文章探讨了这种现象并非偶然,并从自然现象、机器学习算法和LLM本身三个层面解释了其背后的可能性机制。作者认为,LLM的训练过程如同在高维空间中寻找最优解,当参数数量足够大时,能够覆盖到完成特定任务所需的算法空间,从而展现出新的能力。虽然预测LLM何时出现新能力仍然具有挑战性,但这项研究有助于我们理解LLM能力提升的内在规律。