大型语言模型训练的“三神殿”:预训练、微调与强化学习
2025-06-10
Lexiconia王国中,古老的抄写员们在隐秘的山中圣殿接受训练,这圣殿分为三个部分:起源殿、指令室和强化竞技场。起源殿进行预训练,抄写员们阅读海量文本,学习语言模式;指令室进行微调,通过精选文本指导抄写员改进输出;强化竞技场则运用强化学习与人类反馈(RLHF),由人类评判员对抄写员的答案进行排名,奖励好的答案,惩罚差的答案。此外,一些精英抄写员会通过添加LoRA卷轴和适配器遗物来微调,而无需重写整个模型。这整个过程如同一个三翼神殿,象征着大型语言模型训练的完整流程。
AI