离线强化学习提升大语言模型多步推理能力

2024-12-23

研究人员提出了一种名为OREO的离线强化学习方法,用于提升大型语言模型(LLM)的多步推理能力。该方法基于最大熵强化学习,通过优化软贝尔曼方程,同时学习策略模型和价值函数,解决了直接偏好优化方法在多步推理任务中数据需求大和信用分配不足的问题。实验结果表明,OREO在数学推理和具身代理控制等多步推理基准测试中优于现有方法。

AI