DeepEP: Uma biblioteca de comunicação eficiente para Mixture-of-Experts

2025-02-25
DeepEP: Uma biblioteca de comunicação eficiente para Mixture-of-Experts

DeepEP é uma biblioteca de comunicação projetada para Mixture-of-Experts (MoE) e paralelismo de especialistas (EP), oferecendo kernels de GPU all-to-all de alta taxa de transferência e baixa latência (despacho e combinação MoE). Ela suporta operações de baixa precisão, incluindo FP8. Otimizada para o algoritmo de portões com limite de grupo no DeepSeek-V3, a DeepEP fornece kernels para encaminhamento de largura de banda de domínio assimétrico (por exemplo, NVLink para RDMA). Esses kernels alcançam alta taxa de transferência, adequados para treinamento e tarefas de preenchimento de inferência. O controle do número de SM (Streaming Multiprocessors) também é suportado. Para decodificação de inferência sensível à latência, kernels de baixa latência usando RDMA puro minimizam os atrasos. Um método de sobreposição de comunicação-computação baseado em hook é incluído, sem exigir recursos SM. A biblioteca é testada com InfiniBand e é teoricamente compatível com RoCE.

Desenvolvimento Comunicação GPU