通过强化学习训练语言模型进行自我纠正
2024-09-20
这篇论文介绍了一种名为SCoRe的多轮在线强化学习方法,用于提高大型语言模型的自我纠正能力。研究发现,传统的监督式微调方法不足以训练出有效的自我纠正行为,因为存在训练数据和模型自身回复之间的分布不匹配问题。SCoRe通过在模型自生成的数据上进行训练并使用适当的正则化来解决这些挑战,最终显著提高了模型在MATH和HumanEval基准测试中的自我纠正性能。
32
未分类
自我纠正