Transposition de matrice hautement efficace dans Mojo : surpasser CUDA ?
2025-06-06
Cet article de blog détaille comment implémenter un noyau de transposition de matrice hautement efficace sur l'architecture Hopper à l'aide de Mojo. L'auteur explique les optimisations, en commençant par une approche naïve et en culminant avec un noyau atteignant une bande passante de 2775,49 Go/s — compétitif avec, et potentiellement supérieur à, les implémentations CUDA équivalentes. Les optimisations incluent l'utilisation de descripteurs TMA (Tensor Map Access), les optimisations de mémoire partagée, le swizzling des données et l'épaississement des threads. L'article approfondit les détails d'implémentation et les gains de performance de chaque technique, en fournissant des exemples de code complets.
Développement
Transposition de matrice