Superando o cuBLAS: Uma Implementação CUDA de Multiplicação de Matrizes de Precisão Simples

2025-01-18

Este artigo apresenta uma implementação CUDA de multiplicação de matrizes gerais de precisão simples (SGEMM) que supera o cuBLAS em certos cenários. Usando habilmente instruções PTX, cópias de memória assíncronas, buffer duplo e outras técnicas de otimização, o autor alcançou uma multiplicação de matrizes eficiente, especificamente ajustada para uma NVIDIA RTX 3090. O artigo detalha o design do algoritmo, as técnicas de otimização e a metodologia de benchmarking, fornecendo uma experiência valiosa para os alunos de CUDA.

Leia mais
Desenvolvimento