Transformers efficaces : mélange d’experts à accès dispersé (MoE)

2025-04-20

Les couches d’alimentation directe dans les modèles Transformer sont généralement massives, ce qui crée un goulot d’étranglement en termes d’efficacité. Le mélange d’experts à accès dispersé (MoE) offre une solution élégante. MoE décompose la grande couche d’alimentation directe en plusieurs réseaux plus petits d’« experts » et utilise un routeur pour sélectionner le sous-ensemble optimal d’experts pour le calcul de chaque jeton, réduisant ainsi considérablement le coût de calcul et améliorant l’efficacité. Cet article détaille le fonctionnement de MoE, fournit une implémentation NumPy et examine des questions clés telles que l’équilibrage de la charge des experts.

Développement Efficacité du modèle