DeepSeek-V3 : Un modèle linguistique Mixture-of-Experts de 671 milliards de paramètres

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2024-12-26

DeepSeek-V3 est un puissant modèle linguistique Mixture-of-Experts (MoE) de 671 milliards de paramètres, activant 37 milliards de paramètres par jeton. Utilisant l'attention latente multicouche (MLA) et l'architecture DeepSeekMoE, il innove avec une stratégie d'équilibrage de charge sans perte auxiliaire et un objectif d'entraînement de prédiction multi-jetons. Pré-entraîné sur 14,8 trillions de jetons de haute qualité, suivi d'un réglage fin supervisé et d'un apprentissage par renforcement, DeepSeek-V3 surpasse les autres modèles open source et atteint des performances comparables aux modèles propriétaires leaders, avec une efficacité d'entraînement remarquable : seulement 2,788 millions d'heures de GPU H800.