RLVR Améliore le Raisonnement... Mais à Quel Prix ?
Des expériences menées dans les domaines des mathématiques, du codage et du raisonnement visuel ont évalué l'impact du RLVR (apprentissage par renforcement à partir de retours humains) sur les modèles de langage de base et les modèles entraînés avec RLVR. Les résultats ont montré que le RLVR améliorait la précision pour les faibles valeurs de k, mais réduisait la couverture des problèmes pour les valeurs de k plus élevées. Cela suggère que le RLVR améliore la précision déterministe, mais limite la diversité de l'exploration. Les modèles de base ont maintenu une couverture de raisonnement plus large malgré les gains de précision initiaux du RL. La cohérence des résultats entre les différents domaines indique que le RLVR améliore le raisonnement sans modifier fondamentalement l'approche de résolution de problèmes.
Lire plus