DeepSeek-R1 : Améliorer les capacités de raisonnement des LLM grâce à l'apprentissage par renforcement

DeepSeek-AI présente ses modèles de raisonnement de première génération, DeepSeek-R1-Zero et DeepSeek-R1. DeepSeek-R1-Zero, un modèle entraîné par apprentissage par renforcement (RL) à grande échelle sans réglage fin supervisé (SFT) comme étape préliminaire, démontre des capacités de raisonnement remarquables. Grâce au RL, DeepSeek-R1-Zero émerge naturellement avec de nombreux comportements de raisonnement puissants et intrigants. Cependant, il rencontre des défis tels que la faible lisibilité et le mélange de langues. Pour résoudre ces problèmes et améliorer encore les performances de raisonnement, nous présentons DeepSeek-R1, qui intègre un entraînement multi-étapes et des données de démarrage à froid avant le RL. DeepSeek-R1 atteint des performances comparables à celles d'OpenAI-o1-1217 sur les tâches de raisonnement. Pour soutenir la communauté de recherche, nous publions en open source DeepSeek-R1-Zero, DeepSeek-R1 et six modèles denses (1.5B, 7B, 8B, 14B, 32B, 70B) distillés de DeepSeek-R1 basés sur Qwen et Llama.