DeepSeek-R1 : Un modèle de raisonnement entraîné par apprentissage par renforcement et ses versions distillées

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-01-20

DeepSeek a publié ses modèles de raisonnement de première génération, DeepSeek-R1. Entraîné par apprentissage par renforcement à grande échelle sans réglage fin supervisé, DeepSeek-R1 résout des problèmes tels que la répétition infinie et la faible lisibilité présents dans son prédécesseur, DeepSeek-R1-Zero, en incorporant des données de démarrage à froid avant le RL. DeepSeek-R1 atteint des performances comparables à celles d'OpenAI-o1 sur divers benchmarks. De plus, DeepSeek a open-sourcé DeepSeek-R1 et six modèles distillés basés sur Llama et Qwen. DeepSeek-R1-Distill-Qwen-32B surpasse OpenAI-o1-mini sur plusieurs benchmarks, établissant de nouveaux résultats de pointe pour les modèles distillés. Ces modèles, ainsi qu'une API conviviale et une interface de chat, sont disponibles sur Hugging Face.