DeepSeek v3: Mejoras significativas en la arquitectura Transformer

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

DeepSeek v3: Mejoras significativas en la arquitectura Transformer

2025-01-28

DeepSeek v3 logra un rendimiento de vanguardia en los puntos de referencia con una cantidad de cómputo significativamente menor que la de los modelos comparables. Esto se debe a mejoras arquitectónicas clave: La atención latente multi-cabeza (MLA) reduce drásticamente el tamaño de la caché KV sin sacrificar la calidad del modelo; el MoE (Mixture-of-Experts) mejorado aborda el colapso de enrutamiento mediante el equilibrio de carga sin pérdida auxiliar y expertos compartidos; y la predicción multi-token aumenta la eficiencia del entrenamiento y la velocidad de inferencia. Estas mejoras demuestran una comprensión profunda de la arquitectura Transformer y señalan el camino a seguir para los modelos de lenguaje grandes.

(epoch.ai)

Usar 'uv' como tu línea Shebang para scripts Python eficientes

Investigadores de Berkeley replican la tecnología central de DeepSeek R1 por solo 30 $: una revolución de modelos pequeños