DeepSeek-V3 : Un modèle linguistique Mixture-of-Experts de 671 milliards de paramètres

2024-12-26
DeepSeek-V3 : Un modèle linguistique Mixture-of-Experts de 671 milliards de paramètres

DeepSeek-V3 est un puissant modèle linguistique Mixture-of-Experts (MoE) de 671 milliards de paramètres, activant 37 milliards de paramètres par jeton. Utilisant l'attention latente multicouche (MLA) et l'architecture DeepSeekMoE, il innove avec une stratégie d'équilibrage de charge sans perte auxiliaire et un objectif d'entraînement de prédiction multi-jetons. Pré-entraîné sur 14,8 trillions de jetons de haute qualité, suivi d'un réglage fin supervisé et d'un apprentissage par renforcement, DeepSeek-V3 surpasse les autres modèles open source et atteint des performances comparables aux modèles propriétaires leaders, avec une efficacité d'entraînement remarquable : seulement 2,788 millions d'heures de GPU H800.