DeepGEMM : Noyaux GEMM FP8 propres et efficaces avec une mise à l’échelle granulaire fine

2025-02-26
DeepGEMM : Noyaux GEMM FP8 propres et efficaces avec une mise à l’échelle granulaire fine

DeepGEMM est une bibliothèque pour les multiplications de matrices générales (GEMMs) FP8 propres et efficaces sur les Tensor Cores NVIDIA Hopper, avec une mise à l’échelle granulaire fine, comme proposé dans DeepSeek-V3. Elle prend en charge les GEMMs groupées normales et Mix-of-Experts (MoE), utilise un compilateur Just-In-Time (JIT) léger, éliminant ainsi le besoin de compilation lors de l’installation. Elle gère l’imprécision de l’accumulation du cœur de tenseur FP8 via une accumulation à deux niveaux (promotion) du cœur CUDA. Malgré sa conception concise (~ 300 lignes de code principal), les performances de DeepGEMM égalent ou surpassent celles des bibliothèques optimisées par des experts pour diverses formes de matrices.

Développement