오프라인 강화학습을 통한 LLM의 다단계 추론 능력 향상

2024-12-23

연구진은 대규모 언어 모델(LLM)의 다단계 추론 능력을 향상시키기 위한 오프라인 강화학습 방법인 OREO를 제시했습니다. 최대 엔트로피 강화학습에 기반하여, 소프트 벨만 방정식을 최적화함으로써 정책 모델과 가치 함수를 동시에 학습합니다. 이를 통해 다단계 추론 작업에서 직접적 선호도 최적화(DPO) 방법이 가지는 대량의 쌍 선호도 데이터 필요성 및 효과적인 보상 할당의 어려움과 같은 문제점을 해결합니다. 실험 결과, OREO는 수학적 추론 및 구체적 에이전트 제어와 같은 벤치마크에서 기존 오프라인 학습 방법을 능가하는 것으로 나타났습니다.