DeepSeek-R1 : Un modèle de raisonnement entraîné par apprentissage par renforcement, sans besoin d’ajustement fin supervisé

2025-01-20
DeepSeek-R1 : Un modèle de raisonnement entraîné par apprentissage par renforcement, sans besoin d’ajustement fin supervisé

L’équipe DeepSeek a publié en open source ses modèles de raisonnement de première génération, DeepSeek-R1 et une suite de modèles distillés. DeepSeek-R1-Zero, entraîné par apprentissage par renforcement à grande échelle (RL) sans ajustement fin supervisé (SFT), démontre des capacités de raisonnement remarquables, bien qu’il présente quelques défauts. DeepSeek-R1 résout ces problèmes en intégrant des données de démarrage à froid avant le RL, atteignant des performances comparables à OpenAI-o1. Six modèles distillés basés sur Llama et Qwen sont également open source, DeepSeek-R1-Distill-Qwen-32B surpassant OpenAI-o1-mini sur divers benchmarks. Le projet autorise un usage commercial et fournit un site web de chat en ligne et une API compatible avec OpenAI.