DeepSeek-V3: Modelo de lenguaje de mezcla de expertos de 671 mil millones de parámetros
DeepSeek-V3 es un potente modelo de lenguaje de Mezcla de Expertos (MoE) con 671 mil millones de parámetros, activando 37 mil millones de parámetros por token. Utilizando Atención Latente Multicanal (MLA) y la arquitectura DeepSeekMoE, innova con una estrategia de equilibrio de carga sin pérdida auxiliar y un objetivo de entrenamiento de predicción multitoken. Preentrenado en 14,8 billones de tokens de alta calidad, seguido de un ajuste fino supervisado y aprendizaje por refuerzo, DeepSeek-V3 supera a otros modelos de código abierto y alcanza un rendimiento comparable a los modelos cerrados líderes, con una notable eficiencia de entrenamiento: solo 2,788 millones de horas de GPU H800.
Leer más