Jenseits von cuBLAS und CUTLASS: Eine neue Matrixmultiplikations-Kernel-Engine

2025-07-19
Jenseits von cuBLAS und CUTLASS: Eine neue Matrixmultiplikations-Kernel-Engine

Die Matrixmultiplikation ist zentral für moderne Berechnungen, insbesondere in der KI, wo ihre Geschwindigkeit die Modellkapazität direkt beeinflusst. Hardware-Beschleuniger wie NVIDIAs Tensor Cores sind zwar effizient, aber wenig flexibel. Dieser Artikel stellt CubeCL vor, eine neue Engine, die optimierte Matrixmultiplikations-Kernels plattformübergreifend generiert. CubeCL nutzt eine hierarchische Abstraktion (Tile, Stage, Global, Batch Matmul) und verschiedene Algorithmen (Simple, Double Buffering, Ordered usw.), um dies zu erreichen. Sie nutzt geschickt die architektonischen Merkmale von GPUs, wie die synchrone Ausführung von Planes und den coalesced Memory Access, und setzt Techniken wie Double Buffering ein, um die Speicherlatenz zu verbergen. Benchmarks zeigen signifikante Performance-Verbesserungen auf verschiedenen GPUs (NVIDIA, AMD und Apple Silicon), die in einigen Fällen sogar cuBLAS und CUTLASS übertreffen.

Entwicklung