Surpasser cuBLAS : une implémentation CUDA de la multiplication de matrices en simple précision
2025-01-18
Cet article présente une implémentation CUDA de la multiplication de matrices générales en simple précision (SGEMM) qui surpasse cuBLAS dans certains cas. En utilisant habilement des instructions PTX, des copies de mémoire asynchrones, la double mise en mémoire tampon et d’autres techniques d’optimisation, l’auteur a obtenu une multiplication de matrices efficace, spécifiquement optimisée pour une NVIDIA RTX 3090. L’article détaille la conception de l’algorithme, les techniques d’optimisation et la méthodologie de référence, offrant une expérience précieuse aux apprenants CUDA.
Lire plus
Développement
Multiplication de matrices