RLVR增强推理能力?实验结果出乎意料

2025-04-22

研究人员对三种代表性领域(数学、编码和视觉推理)进行了实验,评估RLVR对基础模型和RLVR模型推理能力边界的影响。结果显示,RLVR在低k值下提升了准确率,但在高k值下降低了问题覆盖率。这意味着RLVR增强了确定性准确性,但限制了探索多样性。基础模型即使在RL初始精度提升后,仍然保持更广泛的推理覆盖范围。这表明RLVR增强了推理能力,但并没有从根本上改变模型的解题方法。

AI