RLVRは推論能力を高めるか?実験結果に意外な事実

2025-04-22

数学、コーディング、視覚推論の3つの代表的な領域で実験を行い、RLVR(人間からのフィードバックによる強化学習)がベースモデルとRLVRで訓練された大規模言語モデルの推論能力の境界に与える影響を評価しました。その結果、RLVRは低いk値では精度を向上させましたが、高いk値では問題の網羅率を低下させました。これは、RLVRが決定論的な精度を高める一方で、探索の多様性を制限することを示唆しています。RLによる初期の精度向上にもかかわらず、ベースモデルはより幅広い推論範囲を維持していました。これは、RLVRが推論能力を高める一方で、モデルの問題解決アプローチを根本的に変えるものではないことを示唆しています。