DeepEP: Una biblioteca de comunicación eficiente para Mixture-of-Experts

2025-02-25
DeepEP: Una biblioteca de comunicación eficiente para Mixture-of-Experts

DeepEP es una biblioteca de comunicación diseñada para Mixture-of-Experts (MoE) y paralelismo de expertos (EP), ofreciendo núcleos GPU all-to-all de alto rendimiento y baja latencia (despacho y combinación MoE). Admite operaciones de baja precisión, incluyendo FP8. Optimizada para el algoritmo de compuerta con límite de grupo en DeepSeek-V3, DeepEP proporciona núcleos para el reenvío de ancho de banda de dominio asimétrico (por ejemplo, NVLink a RDMA). Estos núcleos alcanzan un alto rendimiento, adecuados para tareas de entrenamiento y prellenado de inferencia. También se admite el control del número de SM (Streaming Multiprocessors). Para la decodificación de inferencia sensible a la latencia, los núcleos de baja latencia que utilizan RDMA puro minimizan los retrasos. Se incluye un método de superposición de comunicación-computación basado en ganchos, sin requerir recursos SM. La biblioteca se ha probado con InfiniBand y es teóricamente compatible con RoCE.

Desarrollo Comunicación GPU