DeepEP:高效的专家并行通信库

2025-02-25
DeepEP:高效的专家并行通信库

DeepEP是一个为混合专家(MoE)和专家并行(EP)量身定制的通信库。它提供高吞吐量和低延迟的全对全GPU内核(也称为MoE调度和合并)。该库还支持低精度运算,包括FP8。DeepEP针对DeepSeek-V3论文中提出的组限制门控算法进行了优化,提供了一套针对非对称域带宽转发的内核,例如从NVLink域转发数据到RDMA域。这些内核具有高吞吐量,适用于训练和推理预填充任务。此外,它们还支持SM(流多处理器)数量控制。对于延迟敏感的推理解码,DeepEP包含一组低延迟内核,使用纯RDMA来最大限度地减少延迟。该库还引入了一种基于hook的通信计算重叠方法,该方法不占用任何SM资源。