Optimisation des noyaux WMMA sur l'architecture AMD RDNA 4
2025-07-21
Les GPU avec l'architecture AMD RDNA™ 4, qui intègrent des cœurs matriciels de troisième génération, ont amélioré les performances des opérations de multiplication matricielle généralisée (GEMM). Cet article explore l'optimisation des opérations matricielles en utilisant les intrinsèques WMMA (Wave Matrix Multiply Accumulate) dans les noyaux HIP sur les GPU RDNA 4. Il explique la fonctionnalité de WMMA, l'utilisation de nouveaux intrinsèques comme `__builtin_amdgcn_wmma_f32_16x16x16_f16_w32_gfx12` et les différences clés par rapport à l'architecture RDNA 3. Un exemple d'implémentation simplifiée d'un perceptron multicouche (MLP) montre le calcul matriciel efficace sur RDNA 4.
Matériel