Optimierung von WMMA-Kernen auf der AMD RDNA 4 Architektur
AMD RDNA™ 4 Architektur-GPUs mit Matrix-Kernen der dritten Generation verbessern die Performance von Generalisierten Matrixmultiplikationen (GEMM). Dieser Artikel befasst sich mit der Optimierung von Matrixoperationen mithilfe von WMMA (Wave Matrix Multiply Accumulate) Intrinsics in HIP-Kernen auf RDNA 4 GPUs. Er erklärt die Funktionalität von WMMA, die Verwendung neuer Intrinsics wie `__builtin_amdgcn_wmma_f32_16x16x16_f16_w32_gfx12` und die wichtigsten Unterschiede zur RDNA 3 Architektur. Ein vereinfachtes Beispiel für die Implementierung eines mehrschichtigen Perzeptrons (MLP) zeigt die effiziente Matrixberechnung auf RDNA 4.
Mehr lesen