DeepSeek-R1 : Un LLM open source capable de raisonnement

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-01-27

DeepSeek-R1 est un modèle linguistique de grande envergure (LLM) de pointe qui possède des capacités de raisonnement impressionnantes. Contrairement aux LLM typiques qui se contentent de prédire le mot suivant, DeepSeek-R1 génère des « jetons de pensée » pour résoudre les problèmes de manière systématique. Son entraînement comprend trois étapes : premièrement, un modèle de base est entraîné sur des ensembles de données massifs ; deuxièmement, un réglage fin supervisé utilisant 600 000 exemples de raisonnement à longue chaîne de pensée générés par un modèle de raisonnement spécialisé ; et enfin, un apprentissage par renforcement pour améliorer les performances des tâches de raisonnement et des tâches qui ne le sont pas. Le succès de DeepSeek-R1 démontre que la combinaison de modèles de base de haute qualité avec des tâches de raisonnement automatiquement vérifiables réduit considérablement la dépendance aux données étiquetées, ouvrant la voie à de futures avancées dans les LLM.