DeepGEMM: Saubere und effiziente FP8 GEMM-Kernels mit feingranularer Skalierung

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

DeepGEMM: Saubere und effiziente FP8 GEMM-Kernels mit feingranularer Skalierung

2025-02-26

DeepGEMM ist eine Bibliothek für saubere und effiziente FP8 General Matrix Multiplications (GEMMs) auf NVIDIA Hopper Tensor Cores mit feingranularer Skalierung, wie in DeepSeek-V3 vorgeschlagen. Sie unterstützt sowohl normale als auch gruppierte Mix-of-Experts (MoE) GEMMs und verwendet einen leichtgewichtigen Just-In-Time (JIT)-Compiler, wodurch eine Kompilierung während der Installation entfällt. Die Ungenauigkeit der FP8 Tensor Core Akkumulation wird durch eine zweistufige Akkumulation (Promotion) auf CUDA-Core-Ebene behoben. Trotz ihres prägnanten Designs (~300 Zeilen Kerncode) erreicht DeepGEMM eine Leistung, die mit oder über die von Experten optimierten Bibliotheken für verschiedene Matrixformen hinausgeht.

(github.com)

Entwicklung

Gorbatschow-Reformen: Eine hilflose oder leichtsinnige Revolution?

Landesweiter Stromausfall legt Chile lahm