RLVR verbessert das logische Denken... Aber zu welchem Preis?

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

RLVR verbessert das logische Denken... Aber zu welchem Preis?

2025-04-22

Experimente in den Bereichen Mathematik, Programmierung und visuelles Denken haben die Auswirkungen von RLVR (Reinforcement Learning from Human Feedback) auf Basismodelle und mit RLVR trainierte große Sprachmodelle bewertet. Die Ergebnisse zeigten, dass RLVR die Genauigkeit bei niedrigen k-Werten verbesserte, aber die Problemabdeckung bei höheren k-Werten verringerte. Dies deutet darauf hin, dass RLVR die deterministische Genauigkeit verbessert, aber die Explorationsvielfalt einschränkt. Basismodelle behielten eine breitere Abdeckung des logischen Denkens bei, trotz der anfänglichen Genauigkeitsgewinne durch RL. Die konsistenten Ergebnisse über verschiedene Bereiche hinweg zeigen, dass RLVR das logische Denken verbessert, ohne die Problemlösungsmethode grundlegend zu verändern.

(limit-of-rlvr.github.io)

KI Logisches Denken

arXivLabs: Gemeinschaftsprojekt für neue arXiv-Funktionen

Der "alte Fitnessraum" des Programmierers: KI-Autovervollständigung ablehnen, die pure Freude am Programmieren annehmen