Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Offline Reinforcement Learning verbessert mehrstufiges Reasoning bei LLMs

2024-12-23

Forscher stellen OREO vor, eine Offline-Verstärkungslernmethode zur Verbesserung der mehrstufigen Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs). Basierend auf dem Verstärkungslernen mit maximaler Entropie lernt OREO gleichzeitig ein Policy-Modell und eine Wertfunktion, indem es die weiche Bellman-Gleichung optimiert. Dies behebt Einschränkungen der direkten Präferenzoptimierung (DPO) beim mehrstufigen Reasoning, insbesondere den Bedarf an umfangreichen paarweisen Präferenzdaten und die Herausforderung einer effektiven Kreditzuweisung. Experimente zeigen die Überlegenheit von OREO gegenüber bestehenden Offline-Lernmethoden bei Benchmarks mit mathematischem Reasoning und verkörperter Agentensteuerung.

(arxiv.org)

KI Verstärkungslernen Mehrstufiges Reasoning