LoRA 与全量微调:等效的错觉
2024-11-08
本文研究了不同的微调方法如何改变预训练的大型语言模型,特别是低秩自适应 (LoRA) 和全量微调之间的差异。研究发现,尽管 LoRA 在许多任务上可以达到与全量微调相似的性能,但它们的学习到的解并不等效。LoRA 训练的权重矩阵中存在新的、高秩的奇异向量(称为“入侵维度”),而全量微调中不存在。这些“入侵维度”导致 LoRA 模型在预训练分布上的性能下降,并且在顺序适应多个任务时的鲁棒性较差。更高秩、秩稳定的 LoRA 模型更接近全量微调,即使在相同任务上与低秩 LoRA 模型性能相当。研究表明 LoRA 和全量微调访问了参数空间的不同部分,并探讨了“入侵维度”出现的原因、负面影响以及如何将其最小化。
14
未分类