DeepEP:Mixture-of-Expertsのための高効率通信ライブラリ

2025-02-25
DeepEP:Mixture-of-Expertsのための高効率通信ライブラリ

DeepEPは、Mixture-of-Experts(MoE)とエキスパート並列処理(EP)用に設計された通信ライブラリであり、高スループットで低レイテンシのオールツーオールGPUカーネル(MoEディスパッチとコンバイン)を提供します。FP8を含む低精度演算をサポートしています。DeepSeek-V3のグループ制限ゲートアルゴリズムに最適化されており、非対称ドメイン帯域幅転送(例:NVLinkからRDMA)のためのカーネルを提供します。これらのカーネルは高スループットを実現し、トレーニングと推論プリフィリングのタスクに適しています。SM(ストリーミングマルチプロセッサ)数の制御もサポートされています。レイテンシに敏感な推論デコードのために、純粋なRDMAを使用する低レイテンシカーネルは遅延を最小限に抑えます。フックベースの通信計算オーバーラップ方法が含まれており、SMリソースを消費しません。このライブラリはInfiniBandでテストされており、理論的にはRoCEとも互換性があります。

開発