DeepGEMM: Núcleos GEMM FP8 limpos e eficientes com dimensionamento granular fino

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

DeepGEMM: Núcleos GEMM FP8 limpos e eficientes com dimensionamento granular fino

2025-02-26

DeepGEMM é uma biblioteca para multiplicações de matrizes gerais (GEMMs) FP8 limpas e eficientes em NVIDIA Hopper Tensor Cores, com dimensionamento granular fino, conforme proposto no DeepSeek-V3. Suporta GEMMs agrupadas normais e de Mix-of-Experts (MoE), utiliza um compilador Just-In-Time (JIT) leve, eliminando a necessidade de compilação durante a instalação. Aborda a imprecisão do acúmulo do tensor core FP8 por meio de acúmulo de dois níveis (promoção) do núcleo CUDA. Apesar de seu design conciso (~300 linhas de código principal), o desempenho do DeepGEMM iguala ou supera bibliotecas ajustadas por especialistas em várias formas de matrizes.

(github.com)

Desenvolvimento

As Reformas de Gorbachev: Uma Revolução Impotente ou Temerária?

Apagão nacional mergulha o Chile na escuridão