Além do cuBLAS e CUTLASS: Um novo mecanismo de kernel de multiplicação de matrizes

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-07-19

A multiplicação de matrizes é fundamental para a computação moderna, especialmente em IA, onde sua velocidade impacta diretamente a capacidade do modelo. Embora aceleradores de hardware como os Tensor Cores da NVIDIA sejam eficientes, eles carecem de flexibilidade. Este artigo apresenta o CubeCL, um novo mecanismo que gera kernels de multiplicação de matrizes otimizados em várias plataformas. O CubeCL utiliza uma abstração hierárquica (Tile, Stage, Global, Batch Matmul) e vários algoritmos (Simple, Double Buffering, Ordered, etc.) para atingir isso. Ele utiliza inteligentemente recursos de arquitetura de GPU, como execução síncrona de plano e acesso à memória coalescido, empregando técnicas como buffer duplo para ocultar a latência de memória. Benchmarks mostram melhorias significativas de desempenho em várias GPUs (NVIDIA, AMD e Apple Silicon), superando até mesmo o cuBLAS e o CUTLASS em alguns casos.

Desenvolvimento