RLVR Mejora el Razonamiento... ¿Pero a Qué Costo?

2025-04-22

Experimentos en matemáticas, codificación y razonamiento visual evaluaron el impacto de RLVR (Aprendizaje por Refuerzo a partir de Retroalimentación Humana) en modelos de lenguaje grandes base y entrenados con RLVR. Los resultados mostraron que RLVR mejoró la precisión en valores bajos de k, pero disminuyó la cobertura de problemas en valores más altos de k. Esto sugiere que RLVR mejora la precisión determinista, pero limita la diversidad de exploración. Los modelos base mantuvieron una cobertura de razonamiento más amplia a pesar de las ganancias iniciales de precisión del RL. Los hallazgos consistentes en diferentes dominios indican que RLVR mejora el razonamiento sin alterar fundamentalmente el enfoque de resolución de problemas.