DeepGEMM : Noyaux GEMM FP8 propres et efficaces avec une mise à l’échelle granulaire fine

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-02-26

DeepGEMM est une bibliothèque pour les multiplications de matrices générales (GEMMs) FP8 propres et efficaces sur les Tensor Cores NVIDIA Hopper, avec une mise à l’échelle granulaire fine, comme proposé dans DeepSeek-V3. Elle prend en charge les GEMMs groupées normales et Mix-of-Experts (MoE), utilise un compilateur Just-In-Time (JIT) léger, éliminant ainsi le besoin de compilation lors de l’installation. Elle gère l’imprécision de l’accumulation du cœur de tenseur FP8 via une accumulation à deux niveaux (promotion) du cœur CUDA. Malgré sa conception concise (~ 300 lignes de code principal), les performances de DeepGEMM égalent ou surpassent celles des bibliothèques optimisées par des experts pour diverses formes de matrices.

Développement