DeepSeek-R1 : Un modèle de raisonnement entraîné par apprentissage par renforcement et ses versions distillées
DeepSeek a publié ses modèles de raisonnement de première génération, DeepSeek-R1. Entraîné par apprentissage par renforcement à grande échelle sans réglage fin supervisé, DeepSeek-R1 résout des problèmes tels que la répétition infinie et la faible lisibilité présents dans son prédécesseur, DeepSeek-R1-Zero, en incorporant des données de démarrage à froid avant le RL. DeepSeek-R1 atteint des performances comparables à celles d'OpenAI-o1 sur divers benchmarks. De plus, DeepSeek a open-sourcé DeepSeek-R1 et six modèles distillés basés sur Llama et Qwen. DeepSeek-R1-Distill-Qwen-32B surpasse OpenAI-o1-mini sur plusieurs benchmarks, établissant de nouveaux résultats de pointe pour les modèles distillés. Ces modèles, ainsi qu'une API conviviale et une interface de chat, sont disponibles sur Hugging Face.