Webtagr - Resumen de noticias de tecnología

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Multiplicación de matrices FP32 optimizada en GPU AMD RDNA3: Superando a rocBLAS en un 60%

2025-03-28

Esta publicación detalla el proceso de optimización para crear un kernel de multiplicación de matrices FP32 para GPUs AMD RDNA3 que supera a rocBLAS en un 60%. El autor refina iterativamente ocho kernels, comenzando con una implementación ingenua y avanzando hacia optimizaciones a nivel de ISA. Las técnicas incluyen el uso de LDS tiling, register tiling, double buffering de memoria global, optimización de la utilización de LDS y, finalmente, optimización de la utilización de VALU a nivel de ISA y desenrollado de bucles. El kernel final supera a rocBLAS, alcanzando casi 50 TFLOPS.

(seb-v.github.io)

Desarrollo multiplicación de matrices