DeepEP: Mixture-of-Experts를 위한 고효율 통신 라이브러리

2025-02-25
DeepEP: Mixture-of-Experts를 위한 고효율 통신 라이브러리

DeepEP는 Mixture-of-Experts(MoE) 및 전문가 병렬 처리(EP)를 위해 설계된 통신 라이브러리로, 고처리량과 낮은 지연 시간의 전대역 GPU 커널(MoE 디스패치 및 결합)을 제공합니다. FP8을 포함한 저정밀도 연산을 지원합니다. DeepSeek-V3의 그룹 제한 게이팅 알고리즘에 최적화되어 있으며, 비대칭 도메인 대역폭 전달(예: NVLink에서 RDMA로)을 위한 커널을 제공합니다. 이러한 커널은 높은 처리량을 달성하여 교육 및 추론 사전 채우기 작업에 적합합니다. SM(스트리밍 멀티프로세서) 수 제어도 지원합니다. 지연 시간에 민감한 추론 디코딩을 위해 순수 RDMA를 사용하는 낮은 지연 시간 커널은 지연 시간을 최소화합니다. 후크 기반 통신 계산 중첩 방법이 포함되어 있으며, SM 리소스를 소비하지 않습니다. 이 라이브러리는 InfiniBand에서 테스트되었으며, 이론적으로 RoCE와도 호환됩니다.

개발 GPU 통신