Effiziente Transformer: Sparsely-Gated Mixture of Experts (MoE)

2025-04-20

Feedforward-Schichten in Transformer-Modellen sind oft sehr groß und verursachen einen Engpass in der Effizienz. Sparsely-Gated Mixture of Experts (MoE) bietet eine elegante Lösung. MoE zerlegt die große Feedforward-Schicht in mehrere kleinere „Experten“-Netzwerke und verwendet einen Router, um die optimale Teilmenge an Experten für die Berechnung jedes Tokens auszuwählen. Dies reduziert die Rechenkosten deutlich und verbessert die Effizienz. Dieser Beitrag beschreibt die Funktionsweise von MoE, liefert eine NumPy-Implementierung und erörtert wichtige Aspekte wie das Lastausgleichsverfahren der Experten.

Entwicklung Modelleffizienz