RLVR Melhora o Raciocínio, Mas a Que Custo?

2025-04-22

Experimentos em matemática, codificação e raciocínio visual avaliaram o impacto do RLVR (Aprendizado por Reforço a partir de Feedback Humano) em modelos de linguagem grandes base e treinados com RLVR. Os resultados mostraram que o RLVR melhorou a precisão em valores baixos de k, mas diminuiu a cobertura de problemas em valores mais altos de k. Isso sugere que o RLVR aprimora a precisão determinística, mas limita a diversidade de exploração. Os modelos base mantiveram uma cobertura de raciocínio mais ampla, apesar dos ganhos iniciais de precisão do RL. As descobertas consistentes em diferentes domínios indicam que o RLVR aprimora o raciocínio sem alterar fundamentalmente a abordagem de resolução de problemas.