DeepEP : une bibliothèque de communication efficace pour Mixture-of-Experts
DeepEP est une bibliothèque de communication conçue pour Mixture-of-Experts (MoE) et le parallélisme d'experts (EP), offrant des noyaux GPU all-to-all à haut débit et faible latence (expédition et combinaison MoE). Elle prend en charge les opérations à faible précision, y compris FP8. Optimisée pour l'algorithme de gate à limitation de groupe dans DeepSeek-V3, DeepEP fournit des noyaux pour le transfert de bande passante de domaine asymétrique (par exemple, NVLink vers RDMA). Ces noyaux atteignent un débit élevé, adaptés aux tâches d'entraînement et de préremplissage de l'inférence. Le contrôle du nombre de SM (Streaming Multiprocessors) est également pris en charge. Pour le décodage d'inférence sensible à la latence, des noyaux à faible latence utilisant du RDMA pur minimisent les retards. Une méthode de chevauchement communication-calcul basée sur des hooks est incluse, sans occuper de ressources SM. La bibliothèque est testée avec InfiniBand et est théoriquement compatible avec RoCE.