Multiplicação de Matrizes FP32 otimizada em GPU AMD RDNA3: Superando o rocBLAS em 60%

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Multiplicação de Matrizes FP32 otimizada em GPU AMD RDNA3: Superando o rocBLAS em 60%

2025-03-28

Este artigo descreve a jornada de otimização para criar um kernel de multiplicação de matrizes FP32 para GPUs AMD RDNA3 que supera o rocBLAS em 60%. O autor refina iterativamente oito kernels, começando com uma implementação ingênua e progredindo para otimizações em nível de ISA. As técnicas incluem tiling LDS, tiling de registradores, double buffering de memória global, otimização da utilização do LDS e, por fim, otimização da utilização do VALU em nível de ISA e desdobramento de loops. O kernel final supera o rocBLAS, atingindo quase 50 TFLOPS.

(seb-v.github.io)

Desenvolvimento multiplicação de matrizes

Sua TV está te espionando: A ascensão dos anúncios em streaming e o custo da privacidade

Bodyoides: O Equilíbrio Delicado Entre Ética e Tecnologia na Medicina do Futuro