Optimisation des performances du GPU : atteindre les limites du modèle Roofline

2025-06-24

Cet article explore en détail les goulots d’étranglement des performances des architectures GPU, en se concentrant sur la manière dont la bande passante mémoire et le débit de calcul limitent la vitesse de l’application. À l’aide du modèle Roofline, il analyse les régimes limités par la mémoire et limités par le calcul, en détaillant les stratégies permettant d’augmenter l’intensité arithmétique (AI) : la fusion d’opérateurs et le tiling. La fusion réduit le trafic mémoire intermédiaire, tandis que le tiling maximise la réutilisation des données via la mémoire partagée. L’article aborde également des sujets pointus tels que les conflits de banques de mémoire partagée, la divergence de threads et la quantification pour améliorer les performances. L’objectif final est de pousser les points d’opération du noyau vers le plafond de débit de calcul du modèle Roofline.

Matériel Modèle Roofline