Décryptage de R1-Zero : Alignement efficace des LLMs avec le framework Oat

2025-03-22
Décryptage de R1-Zero : Alignement efficace des LLMs avec le framework Oat

Des chercheurs ont publié un article, des modèles et une base de code révélant les mystères de l'entraînement de type R1-Zero. Ils ont développé Oat, un framework d'apprentissage par renforcement LLM hautement modulaire et efficace, et l'ont utilisé pour entraîner des modèles de type R1-Zero tels que Qwen2.5. L'étude a révélé que des modèles de base appropriés et un algorithme d'apprentissage par renforcement amélioré (Dr. GRPO) sont cruciaux, évitant l'optimisation biaisée des modèles et des ensembles de questions incompatibles. Ils ont finalement obtenu des performances de pointe avec seulement 27 heures de calcul sur 8 GPU A100.

IA