Optimisation des noyaux WMMA sur l'architecture AMD RDNA 4

2025-07-21
Optimisation des noyaux WMMA sur l'architecture AMD RDNA 4

Les GPU avec l'architecture AMD RDNA™ 4, qui intègrent des cœurs matriciels de troisième génération, ont amélioré les performances des opérations de multiplication matricielle généralisée (GEMM). Cet article explore l'optimisation des opérations matricielles en utilisant les intrinsèques WMMA (Wave Matrix Multiply Accumulate) dans les noyaux HIP sur les GPU RDNA 4. Il explique la fonctionnalité de WMMA, l'utilisation de nouveaux intrinsèques comme `__builtin_amdgcn_wmma_f32_16x16x16_f16_w32_gfx12` et les différences clés par rapport à l'architecture RDNA 3. Un exemple d'implémentation simplifiée d'un perceptron multicouche (MLP) montre le calcul matriciel efficace sur RDNA 4.

Lire plus
Matériel

Au-delà des triangles : une nouvelle approche du rendu des quadrilatères

2025-04-11
Au-delà des triangles : une nouvelle approche du rendu des quadrilatères

L'infographie en temps réel repose depuis longtemps sur les triangles en raison de la prise en charge native des GPU pour le rendu accéléré par matériel des seuls triangles. Cela conduit à des discontinuités C^1 dans les attributs de sommet tels que les coordonnées de texture et les normales le long de l'arête partagée lorsque les quadrilatères sont divisés en triangles. Cet article présente une nouvelle méthode qui préserve la continuité C^1 sur l'arête commune de deux triangles générés à partir de quadrilatères convexes à l'aide d'une solution algébrique pour les coefficients d'interpolation bilinéaire exprimés en coordonnées barycentriques. La méthode est implémentée dans les shaders de géométrie, de tessellation et de maillage, améliorant ainsi considérablement la qualité du rendu avec une surcharge de calcul négligeable.

Lire plus
Développement rendu GPU quadrilatères