RLVR增强推理能力？实验结果出乎意料

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

RLVR增强推理能力？实验结果出乎意料

2025-04-22

研究人员对三种代表性领域（数学、编码和视觉推理）进行了实验，评估RLVR对基础模型和RLVR模型推理能力边界的影响。结果显示，RLVR在低k值下提升了准确率，但在高k值下降低了问题覆盖率。这意味着RLVR增强了确定性准确性，但限制了探索多样性。基础模型即使在RL初始精度提升后，仍然保持更广泛的推理覆盖范围。这表明RLVR增强了推理能力，但并没有从根本上改变模型的解题方法。

(limit-of-rlvr.github.io)

arXivLabs：与社区协作者共建arXiv新功能

程序员的「老式健身房」：拒绝AI代码自动补全，拥抱编程的纯粹乐趣