RLVR verbessert das logische Denken... Aber zu welchem Preis?
Experimente in den Bereichen Mathematik, Programmierung und visuelles Denken haben die Auswirkungen von RLVR (Reinforcement Learning from Human Feedback) auf Basismodelle und mit RLVR trainierte große Sprachmodelle bewertet. Die Ergebnisse zeigten, dass RLVR die Genauigkeit bei niedrigen k-Werten verbesserte, aber die Problemabdeckung bei höheren k-Werten verringerte. Dies deutet darauf hin, dass RLVR die deterministische Genauigkeit verbessert, aber die Explorationsvielfalt einschränkt. Basismodelle behielten eine breitere Abdeckung des logischen Denkens bei, trotz der anfänglichen Genauigkeitsgewinne durch RL. Die konsistenten Ergebnisse über verschiedene Bereiche hinweg zeigen, dass RLVR das logische Denken verbessert, ohne die Problemlösungsmethode grundlegend zu verändern.