LoRA 学习更少,遗忘也更少

2024-05-17

低秩自适应 (LoRA) 是一种广泛使用的参数高效微调方法,用于大型语言模型。LoRA 通过仅训练对选定权重矩阵的低秩扰动来节省内存。 本文比较了 LoRA 和完整微调在编程和数学两个目标域上的性能,考虑了指令微调(约 100K 提示-响应对)和持续预训练(约 10B 非结构化标记)数据机制。 结果表明,在大多数情况下,LoRA 的性能明显低于完整微调。 然而,LoRA 表现出一种理想的正则化形式:它可以更好地保持基础模型在目标域之外的任务上的性能。 LoRA 与权重衰减和 dropout 等常用技术相比,提供了更强的正则化;它还有助于保持更多样化的生成。 完整微调学习到的扰动秩比典型的 LoRA 配置高 10-100 倍,这可能解释了一些报告的差距。

47
未分类 LoRA