Offline Reinforcement Learning verbessert mehrstufiges Reasoning bei LLMs

2024-12-23
Offline Reinforcement Learning verbessert mehrstufiges Reasoning bei LLMs

Forscher stellen OREO vor, eine Offline-Verstärkungslernmethode zur Verbesserung der mehrstufigen Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs). Basierend auf dem Verstärkungslernen mit maximaler Entropie lernt OREO gleichzeitig ein Policy-Modell und eine Wertfunktion, indem es die weiche Bellman-Gleichung optimiert. Dies behebt Einschränkungen der direkten Präferenzoptimierung (DPO) beim mehrstufigen Reasoning, insbesondere den Bedarf an umfangreichen paarweisen Präferenzdaten und die Herausforderung einer effektiven Kreditzuweisung. Experimente zeigen die Überlegenheit von OREO gegenüber bestehenden Offline-Lernmethoden bei Benchmarks mit mathematischem Reasoning und verkörperter Agentensteuerung.