Otimizando núcleos WMMA na arquitetura AMD RDNA 4
2025-07-21

As GPUs com arquitetura AMD RDNA™ 4, que possuem núcleos de matriz de terceira geração, melhoraram o desempenho das operações de Multiplicação de Matriz Generalizada (GEMM). Este artigo examina a otimização de operações de matriz usando intrínsecos WMMA (Wave Matrix Multiply Accumulate) em kernels HIP em GPUs RDNA 4. Ele explica a funcionalidade do WMMA, o uso de novos intrínsecos como `__builtin_amdgcn_wmma_f32_16x16x16_f16_w32_gfx12` e as diferenças principais em relação à arquitetura RDNA 3. Um exemplo de implementação simplificada de Perceptron Multicamadas (MLP) mostra a computação eficiente de matrizes no RDNA 4.
Hardware