DeepEP: Eine effiziente Kommunikationsbibliothek für Mixture-of-Experts

2025-02-25
DeepEP: Eine effiziente Kommunikationsbibliothek für Mixture-of-Experts

DeepEP ist eine Kommunikationsbibliothek, die für Mixture-of-Experts (MoE) und Expertenparallelisierung (EP) entwickelt wurde und All-to-All-GPU-Kernels mit hohem Durchsatz und geringer Latenz bietet (MoE-Dispatch und -Combine). Sie unterstützt Operationen mit niedriger Genauigkeit, einschließlich FP8. Optimiert für den gruppenbeschränkten Gating-Algorithmus in DeepSeek-V3, bietet DeepEP Kernels für die asymmetrische Bandbreitenweiterleitung (z. B. NVLink zu RDMA). Diese Kernels erreichen einen hohen Durchsatz und eignen sich für Trainings- und Inferenz-Prefilling-Aufgaben. Die Steuerung der Anzahl der SMs (Streaming Multiprozessoren) wird ebenfalls unterstützt. Für latenzempfindliches Inferenz-Decoding enthält DeepEP Kernels mit geringer Latenz mit reinem RDMA, um Verzögerungen zu minimieren. Eine Hook-basierte Methode zur Überlappung von Kommunikation und Berechnung ist enthalten, die keine SM-Ressourcen belegt. Die Bibliothek wurde mit InfiniBand getestet und ist theoretisch auch mit RoCE kompatibel.

Entwicklung GPU-Kommunikation