Optimierung von WMMA-Kernen auf der AMD RDNA 4 Architektur

2025-07-21
Optimierung von WMMA-Kernen auf der AMD RDNA 4 Architektur

AMD RDNA™ 4 Architektur-GPUs mit Matrix-Kernen der dritten Generation verbessern die Performance von Generalisierten Matrixmultiplikationen (GEMM). Dieser Artikel befasst sich mit der Optimierung von Matrixoperationen mithilfe von WMMA (Wave Matrix Multiply Accumulate) Intrinsics in HIP-Kernen auf RDNA 4 GPUs. Er erklärt die Funktionalität von WMMA, die Verwendung neuer Intrinsics wie `__builtin_amdgcn_wmma_f32_16x16x16_f16_w32_gfx12` und die wichtigsten Unterschiede zur RDNA 3 Architektur. Ein vereinfachtes Beispiel für die Implementierung eines mehrschichtigen Perzeptrons (MLP) zeigt die effiziente Matrixberechnung auf RDNA 4.

Mehr lesen
Hardware

Über Dreiecke hinaus: Ein neuer Ansatz für das Rendern von Vierecken

2025-04-11
Über Dreiecke hinaus: Ein neuer Ansatz für das Rendern von Vierecken

Echtzeit-Computergrafik hat sich lange auf Dreiecke verlassen, da GPUs nur die Hardware-beschleunigte Rasterisierung von Dreiecken nativ unterstützen. Dies führt zu C^1-Unstetigkeiten in Scheitelpunktattributen wie Texturkoordinaten und Normalen entlang der gemeinsamen Kante, wenn Vierecke in Dreiecke unterteilt werden. Dieser Artikel präsentiert eine neue Methode, die die C^1-Stetigkeit über die gemeinsame Kante von zwei aus konvexen Vierecken erzeugten Dreiecken unter Verwendung einer algebraischen Lösung für bilineare Interpolationskoeffizienten, ausgedrückt in baryzentrischen Koordinaten, bewahrt. Die Methode wird in Geometrie-, Tessellations- und Mesh-Shadern implementiert und verbessert die Renderqualität erheblich bei vernachlässigbarem Rechenaufwand.

Mehr lesen
Entwicklung Vierecke