Open-R1 : Reproduction open source du modèle de raisonnement DeepSeek-R1
2025-01-28
Les capacités de raisonnement impressionnantes du modèle DeepSeek-R1 ont captivé la communauté IA, mais ses détails d'entraînement restent non divulgués. Le projet Open-R1 vise à reproduire complètement DeepSeek-R1 en open source, incluant les jeux de données et le pipeline d'entraînement. Cela impliquera la distillation d'un jeu de données de raisonnement de haute qualité à partir de DeepSeek-R1, la reproduction de son processus d'entraînement d'apprentissage par renforcement pur et l'exploration de méthodes d'entraînement en plusieurs étapes. L'objectif final est de créer un modèle de raisonnement transparent et reproductible, stimulant les progrès au sein de la communauté open source.
IA