RLVR, 추론 능력 향상? 실험 결과 예상 밖의 사실

2025-04-22

수학, 코딩, 시각적 추론 세 가지 대표적인 영역에서 실험을 수행하여 RLVR(인간 피드백 기반 강화 학습)이 기본 모델과 RLVR로 훈련된 대규모 언어 모델의 추론 능력 경계에 미치는 영향을 평가했습니다. 결과적으로 RLVR은 낮은 k 값에서는 정확도를 높였지만 높은 k 값에서는 문제의 포괄성을 낮췄습니다. 이는 RLVR이 결정론적 정확도를 높이는 동시에 탐색의 다양성을 제한한다는 것을 시사합니다. RL 초기 정확도 향상에도 불구하고 기본 모델은 더 넓은 추론 범위를 유지했습니다. 이는 RLVR이 추론 능력을 향상시키는 동시에 모델의 문제 해결 방식을 근본적으로 바꾸지는 않는다는 것을 시사합니다.

더 보기