GPU-Leistungsoptimierung: Die Grenzen des Roofline-Modells erreichen
Dieser Artikel befasst sich eingehend mit den Leistungsengpässen von GPU-Architekturen und konzentriert sich darauf, wie Speicherbandbreite und Rechenleistung die Geschwindigkeit von Anwendungen begrenzen. Anhand des Roofline-Modells werden speichergebundene und rechengebundene Regime analysiert und Strategien zur Steigerung der arithmetischen Intensität (AI) detailliert beschrieben: Operatorenfusion und Tiling. Fusion reduziert den intermediären Speicherverkehr, während Tiling die Datenwiederverwendung über den Shared Memory maximiert. Der Artikel behandelt auch detaillierte Themen wie Shared-Memory-Bankkonflikte, Thread-Divergenz und Quantisierung für Leistungsgewinne. Das ultimative Ziel ist es, die Betriebspunkte des Kernels an die Decke der Rechenleistung im Roofline-Modell zu drücken.