¿Los kernels CUDA generados por IA superan a PyTorch?

2025-05-30

Los investigadores utilizaron grandes modelos de lenguaje y una nueva estrategia de búsqueda ramificada para generar automáticamente kernels CUDA-C puros sin depender de bibliotecas como CUTLASS o Triton. Sorprendentemente, estos kernels generados por IA, en algunos casos, superan incluso a los kernels de producción optimizados por expertos en PyTorch, logrando casi el doble de velocidad en la operación Conv2D. El método aprovecha el razonamiento en lenguaje natural sobre estrategias de optimización y una búsqueda ramificada para explorar múltiples hipótesis en paralelo, evitando eficazmente óptimos locales. Si bien el rendimiento de la multiplicación de matrices FP16 y la atención Flash aún necesita mejoras, esta investigación abre una nueva frontera en la autogeneración de kernels de alto rendimiento, sugiriendo el inmenso potencial de la IA en la optimización de compiladores.