Open-R1 : Reproduction open source du modèle de raisonnement DeepSeek-R1

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

Open-R1 : Reproduction open source du modèle de raisonnement DeepSeek-R1

2025-01-28

Les capacités de raisonnement impressionnantes du modèle DeepSeek-R1 ont captivé la communauté IA, mais ses détails d'entraînement restent non divulgués. Le projet Open-R1 vise à reproduire complètement DeepSeek-R1 en open source, incluant les jeux de données et le pipeline d'entraînement. Cela impliquera la distillation d'un jeu de données de raisonnement de haute qualité à partir de DeepSeek-R1, la reproduction de son processus d'entraînement d'apprentissage par renforcement pur et l'exploration de méthodes d'entraînement en plusieurs étapes. L'objectif final est de créer un modèle de raisonnement transparent et reproductible, stimulant les progrès au sein de la communauté open source.

(huggingface.co)

Algorithmes d'apprentissage par renforcement : un guide complet

Des corps en mouvement plus d'un an après la mort, selon une étude