cuBLAS übertreffen: Eine CUDA-Implementierung der Gleitkomma-Matrixmultiplikation

2025-01-18

Dieser Artikel präsentiert eine CUDA-Implementierung der Gleitkomma-Matrixmultiplikation (SGEMM), die cuBLAS in bestimmten Szenarien übertrifft. Durch geschickte Verwendung von PTX-Instruktionen, asynchronen Speicherkopien, Double Buffering und anderen Optimierungstechniken erzielte der Autor eine effiziente Matrixmultiplikation, speziell abgestimmt auf eine NVIDIA RTX 3090. Der Artikel beschreibt detailliert das Algorithmusdesign, die Optimierungstechniken und die Benchmarking-Methodologie und bietet wertvolle Erfahrungen für CUDA-Lernende.

Entwicklung