Além do cuBLAS e CUTLASS: Um novo mecanismo de kernel de multiplicação de matrizes

2025-07-19
Além do cuBLAS e CUTLASS: Um novo mecanismo de kernel de multiplicação de matrizes

A multiplicação de matrizes é fundamental para a computação moderna, especialmente em IA, onde sua velocidade impacta diretamente a capacidade do modelo. Embora aceleradores de hardware como os Tensor Cores da NVIDIA sejam eficientes, eles carecem de flexibilidade. Este artigo apresenta o CubeCL, um novo mecanismo que gera kernels de multiplicação de matrizes otimizados em várias plataformas. O CubeCL utiliza uma abstração hierárquica (Tile, Stage, Global, Batch Matmul) e vários algoritmos (Simple, Double Buffering, Ordered, etc.) para atingir isso. Ele utiliza inteligentemente recursos de arquitetura de GPU, como execução síncrona de plano e acesso à memória coalescido, empregando técnicas como buffer duplo para ocultar a latência de memória. Benchmarks mostram melhorias significativas de desempenho em várias GPUs (NVIDIA, AMD e Apple Silicon), superando até mesmo o cuBLAS e o CUTLASS em alguns casos.

Desenvolvimento