DeepGEMM: Núcleos GEMM FP8 limpios y eficientes con escalado granular fino

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

DeepGEMM: Núcleos GEMM FP8 limpios y eficientes con escalado granular fino

2025-02-26

DeepGEMM es una biblioteca para multiplicaciones de matrices generales (GEMMs) FP8 limpias y eficientes en NVIDIA Hopper Tensor Cores, con escalado granular fino, como se propuso en DeepSeek-V3. Admite GEMMs agrupadas normales y de Mix-of-Experts (MoE), utiliza un compilador Just-In-Time (JIT) ligero, eliminando la necesidad de compilación durante la instalación. Aborda la imprecisión de la acumulación del tensor core FP8 mediante la acumulación de dos niveles (promoción) del núcleo CUDA. A pesar de su diseño conciso (~300 líneas de código principal), el rendimiento de DeepGEMM iguala o supera a las bibliotecas ajustadas por expertos en varias formas de matrices.

(github.com)

Desarrollo

Las Reformas de Gorbachov: ¿Una Revolución Impotente o Temeraria?

Apagón nacional sumge a Chile en la oscuridad