DeepSeek-R1 : Un LLM open source capable de raisonnement
DeepSeek-R1 est un modèle linguistique de grande envergure (LLM) de pointe qui possède des capacités de raisonnement impressionnantes. Contrairement aux LLM typiques qui se contentent de prédire le mot suivant, DeepSeek-R1 génère des « jetons de pensée » pour résoudre les problèmes de manière systématique. Son entraînement comprend trois étapes : premièrement, un modèle de base est entraîné sur des ensembles de données massifs ; deuxièmement, un réglage fin supervisé utilisant 600 000 exemples de raisonnement à longue chaîne de pensée générés par un modèle de raisonnement spécialisé ; et enfin, un apprentissage par renforcement pour améliorer les performances des tâches de raisonnement et des tâches qui ne le sont pas. Le succès de DeepSeek-R1 démontre que la combinaison de modèles de base de haute qualité avec des tâches de raisonnement automatiquement vérifiables réduit considérablement la dépendance aux données étiquetées, ouvrant la voie à de futures avancées dans les LLM.