DeepSeek R1 : un modèle open source qui défie OpenAI dans les tâches de raisonnement complexe
DeepSeek R1, un modèle open source, relève le défi des modèles d'OpenAI dans les tâches de raisonnement complexe. Utilisant l'optimisation de politique relative de groupe (GRPO) et une approche d'entraînement multi-étapes axée sur l'apprentissage par renforcement, les créateurs ont publié non seulement le modèle, mais aussi un article de recherche détaillant son développement. L'article décrit un "moment eureka" pendant l'entraînement où le modèle a appris à allouer plus de temps de réflexion à un problème en réévaluant son approche initiale, sans retour d'information humain. Ce billet de blog recrée ce "moment eureka" à l'aide de GRPO et du jeu Countdown, en entraînant un modèle ouvert pour apprendre des capacités d'autovérification et de recherche. Un code interactif Jupyter Notebook, ainsi que des scripts et des instructions pour l'entraînement distribué sur des nœuds multi-GPU ou des clusters SLURM, sont fournis pour faciliter l'apprentissage de GRPO et de TRL.