Transformers Eficientes: Mezcla de Expertos con Acceso Disperso (MoE)
2025-04-20
Las capas de alimentación directa en los modelos Transformer suelen ser masivas, creando un cuello de botella de eficiencia. La Mezcla de Expertos con Acceso Disperso (MoE) ofrece una solución elegante. MoE descompone la capa de alimentación directa grande en varias redes más pequeñas de "expertos" y utiliza un enrutador para seleccionar el subconjunto óptimo de expertos para el cálculo de cada token, reduciendo significativamente el coste computacional y mejorando la eficiencia. Esta publicación detalla el funcionamiento de MoE, proporciona una implementación de NumPy y analiza cuestiones clave como el equilibrio de carga de los expertos.
Desarrollo
Eficiencia del Modelo