DeepGEMM: Saubere und effiziente FP8 GEMM-Kernels mit feingranularer Skalierung
2025-02-26
DeepGEMM ist eine Bibliothek für saubere und effiziente FP8 General Matrix Multiplications (GEMMs) auf NVIDIA Hopper Tensor Cores mit feingranularer Skalierung, wie in DeepSeek-V3 vorgeschlagen. Sie unterstützt sowohl normale als auch gruppierte Mix-of-Experts (MoE) GEMMs und verwendet einen leichtgewichtigen Just-In-Time (JIT)-Compiler, wodurch eine Kompilierung während der Installation entfällt. Die Ungenauigkeit der FP8 Tensor Core Akkumulation wird durch eine zweistufige Akkumulation (Promotion) auf CUDA-Core-Ebene behoben. Trotz ihres prägnanten Designs (~300 Zeilen Kerncode) erreicht DeepGEMM eine Leistung, die mit oder über die von Experten optimierten Bibliotheken für verschiedene Matrixformen hinausgeht.
Entwicklung