DeepGEMM:クリーンで効率的なFP8 GEMMカーネル、ファイングレインスケーリング対応
2025-02-26
DeepGEMMは、DeepSeek-V3で提案されているように、ファイングレインスケーリングを備えた、NVIDIA Hopperテンソルコアでクリーンで効率的なFP8汎用行列乗算(GEMM)を行うためのライブラリです。通常のGEMMとMix-of-Experts(MoE)グループ化GEMMの両方をサポートし、軽量なJust-In-Time(JIT)コンパイラを使用するため、インストール時のコンパイルは不要です。FP8テンソルコアの累算の不正確さを、CUDAコアの2レベル累算(プロモーション)で解決します。簡潔な設計(コアコードは約300行)にもかかわらず、DeepGEMMのパフォーマンスは、さまざまな行列形状で専門家がチューニングしたライブラリに匹敵するか、それを上回ります。
開発