DeepGEMM: Núcleos GEMM FP8 limpos e eficientes com dimensionamento granular fino
2025-02-26
DeepGEMM é uma biblioteca para multiplicações de matrizes gerais (GEMMs) FP8 limpas e eficientes em NVIDIA Hopper Tensor Cores, com dimensionamento granular fino, conforme proposto no DeepSeek-V3. Suporta GEMMs agrupadas normais e de Mix-of-Experts (MoE), utiliza um compilador Just-In-Time (JIT) leve, eliminando a necessidade de compilação durante a instalação. Aborda a imprecisão do acúmulo do tensor core FP8 por meio de acúmulo de dois níveis (promoção) do núcleo CUDA. Apesar de seu design conciso (~300 linhas de código principal), o desempenho do DeepGEMM iguala ou supera bibliotecas ajustadas por especialistas em várias formas de matrizes.
Desenvolvimento