Kernels CUDA gerados por IA superam o PyTorch?

2025-05-30

Pesquisadores usaram grandes modelos de linguagem e uma nova estratégia de busca ramificada para gerar automaticamente kernels CUDA-C puros sem depender de bibliotecas como CUTLASS ou Triton. Surpreendentemente, esses kernels gerados por IA, em alguns casos, superam até mesmo os kernels de produção otimizados por especialistas no PyTorch, obtendo quase o dobro da velocidade na operação Conv2D. O método utiliza raciocínio em linguagem natural sobre estratégias de otimização e uma busca ramificada para explorar várias hipóteses em paralelo, evitando eficazmente ótimos locais. Embora o desempenho da multiplicação de matrizes FP16 e da atenção Flash ainda precise de melhorias, esta pesquisa abre uma nova fronteira na autogeração de kernels de alto desempenho, sugerindo o imenso potencial da IA na otimização de compiladores.

Leia mais