Décryptage de R1-Zero : Alignement efficace des LLMs avec le framework Oat

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

Décryptage de R1-Zero : Alignement efficace des LLMs avec le framework Oat

2025-03-22

Des chercheurs ont publié un article, des modèles et une base de code révélant les mystères de l'entraînement de type R1-Zero. Ils ont développé Oat, un framework d'apprentissage par renforcement LLM hautement modulaire et efficace, et l'ont utilisé pour entraîner des modèles de type R1-Zero tels que Qwen2.5. L'étude a révélé que des modèles de base appropriés et un algorithme d'apprentissage par renforcement amélioré (Dr. GRPO) sont cruciaux, évitant l'optimisation biaisée des modèles et des ensembles de questions incompatibles. Ils ont finalement obtenu des performances de pointe avec seulement 27 heures de calcul sur 8 GPU A100.

(github.com)

FizzBee : Modélisation de l’exclusion mutuelle et les pièges de Redlock

Plongez au cœur de PyTorch : tenseurs, Autograd et écriture de noyaux