递归的诅咒:基于生成数据训练会导致模型遗忘
2024-12-07
本文研究了大型语言模型(LLM)广泛应用后可能带来的影响,特别是LLM生成内容被用于训练后续模型的场景。研究发现,使用模型生成的内容进行训练会导致生成的模型出现不可逆的缺陷,即原始内容分布的尾部消失,这种现象被称为“模型崩溃”。该现象在变分自编码器、高斯混合模型和LLM中均有出现。作者构建了该现象背后的理论直觉,并描绘了其在所有学习生成模型中的普遍性。研究指出,如果要保持从网络大规模数据中训练的优势,就必须认真对待这个问题。随着互联网上LLM生成内容的增多,收集关于真实人类与系统交互的数据的价值将越来越高。
4
未分类