Transposición de Matriz Altamente Eficiente en Mojo: ¿Superando a CUDA?
2025-06-06
Esta entrada de blog detalla cómo implementar un kernel de transposición de matriz altamente eficiente en la arquitectura Hopper usando Mojo. El autor explica las optimizaciones, comenzando con un enfoque ingenuo y culminando en un kernel que alcanza un ancho de banda de 2775,49 GB/s — competitivo con, y posiblemente superior a, implementaciones equivalentes de CUDA. Las optimizaciones incluyen el uso de descriptores TMA (Tensor Map Access), optimizaciones de memoria compartida, intercambio de datos y refinamiento de hilos. La entrada profundiza en los detalles de implementación y las ganancias de rendimiento de cada técnica, proporcionando ejemplos de código completos.
Desarrollo
Transposición de Matriz