オフライン強化学習によるLLMの多段階推論能力向上
2024-12-23
研究者らは、大規模言語モデル(LLM)の多段階推論能力を向上させることを目的とした、オフライン強化学習手法OREOを発表しました。最大エントロピー強化学習に基づき、ソフトベルマン方程式を最適化することで、ポリシーモデルと価値関数を同時に学習します。これにより、多段階推論タスクにおける直接的選好最適化(DPO)の手法が抱える、大量のペアワイズデータの必要性や効果的な報酬割り当ての困難といった問題点を解決します。実験の結果、OREOは数学的推論や具象エージェント制御などのベンチマークにおいて、既存のオフライン学習手法を上回ることが示されました。
AI
多段階推論