DeepSeek-R1 : Un modèle de raisonnement entraîné par apprentissage par renforcement, sans besoin d’ajustement fin supervisé

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-01-20

L’équipe DeepSeek a publié en open source ses modèles de raisonnement de première génération, DeepSeek-R1 et une suite de modèles distillés. DeepSeek-R1-Zero, entraîné par apprentissage par renforcement à grande échelle (RL) sans ajustement fin supervisé (SFT), démontre des capacités de raisonnement remarquables, bien qu’il présente quelques défauts. DeepSeek-R1 résout ces problèmes en intégrant des données de démarrage à froid avant le RL, atteignant des performances comparables à OpenAI-o1. Six modèles distillés basés sur Llama et Qwen sont également open source, DeepSeek-R1-Distill-Qwen-32B surpassant OpenAI-o1-mini sur divers benchmarks. Le projet autorise un usage commercial et fournit un site web de chat en ligne et une API compatible avec OpenAI.