Transposição de Matriz Altamente Eficiente em Mojo: Superando a CUDA?

2025-06-06
Transposição de Matriz Altamente Eficiente em Mojo: Superando a CUDA?

Esta postagem de blog detalha como implementar um kernel de transposição de matriz altamente eficiente na arquitetura Hopper usando Mojo. O autor descreve as otimizações, começando com uma abordagem ingênua e culminando em um kernel que atinge 2775,49 GB/s de largura de banda — competitivo com, e potencialmente superior a, implementações equivalentes da CUDA. As otimizações incluem o uso de descritores TMA (Tensor Map Access), otimizações de memória compartilhada, swizzling de dados e refinamento de threads. A postagem mergulha nos detalhes de implementação e nos ganhos de desempenho de cada técnica, fornecendo exemplos de código completos.

Desenvolvimento Transposição de Matriz