DeepEP: Una biblioteca de comunicación eficiente para Mixture-of-Experts

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-02-25

DeepEP es una biblioteca de comunicación diseñada para Mixture-of-Experts (MoE) y paralelismo de expertos (EP), ofreciendo núcleos GPU all-to-all de alto rendimiento y baja latencia (despacho y combinación MoE). Admite operaciones de baja precisión, incluyendo FP8. Optimizada para el algoritmo de compuerta con límite de grupo en DeepSeek-V3, DeepEP proporciona núcleos para el reenvío de ancho de banda de dominio asimétrico (por ejemplo, NVLink a RDMA). Estos núcleos alcanzan un alto rendimiento, adecuados para tareas de entrenamiento y prellenado de inferencia. También se admite el control del número de SM (Streaming Multiprocessors). Para la decodificación de inferencia sensible a la latencia, los núcleos de baja latencia que utilizan RDMA puro minimizan los retrasos. Se incluye un método de superposición de comunicación-computación basado en ganchos, sin requerir recursos SM. La biblioteca se ha probado con InfiniBand y es teóricamente compatible con RoCE.