DeepSeek v3 : Améliorations significatives de l’architecture Transformer
DeepSeek v3 atteint des performances de pointe sur les benchmarks avec une charge de calcul significativement inférieure à celle des modèles comparables. Cela est dû à des améliorations architecturales clés : l’attention latente multi-têtes (MLA) réduit considérablement la taille du cache KV sans sacrifier la qualité du modèle ; le MoE (Mixture-of-Experts) amélioré résout le problème de l’effondrement du routage grâce à un équilibrage de charge sans perte auxiliaire et à des experts partagés ; et la prédiction multi-jetons améliore l’efficacité de l’entraînement et la vitesse d’inférence. Ces améliorations démontrent une compréhension approfondie de l’architecture Transformer et montrent la voie à suivre pour les grands modèles de langage.