DeepGEMM: Núcleos GEMM FP8 limpios y eficientes con escalado granular fino

2025-02-26
DeepGEMM: Núcleos GEMM FP8 limpios y eficientes con escalado granular fino

DeepGEMM es una biblioteca para multiplicaciones de matrices generales (GEMMs) FP8 limpias y eficientes en NVIDIA Hopper Tensor Cores, con escalado granular fino, como se propuso en DeepSeek-V3. Admite GEMMs agrupadas normales y de Mix-of-Experts (MoE), utiliza un compilador Just-In-Time (JIT) ligero, eliminando la necesidad de compilación durante la instalación. Aborda la imprecisión de la acumulación del tensor core FP8 mediante la acumulación de dos niveles (promoción) del núcleo CUDA. A pesar de su diseño conciso (~300 líneas de código principal), el rendimiento de DeepGEMM iguala o supera a las bibliotecas ajustadas por expertos en varias formas de matrices.

Desarrollo