Optimisation des performances de la multiplication matricielle BQN : blocage du cache et diviser pour régner

2025-06-27

Cet article explore l’optimisation des performances de la multiplication de matrices de grande taille à l’aide du langage BQN. L’auteur utilise d’abord une méthode simple de partitionnement carré pour utiliser efficacement le cache, obtenant une accélération d’environ six fois. Ensuite, un algorithme de Strassen basé sur une stratégie de diviser pour régner est introduit et montre expérimentalement qu’il permet d’obtenir une accélération jusqu’à 9 fois sur les matrices de grande taille. L’article compare également l’impact sur les performances de différentes tailles de blocs et de stratégies de pavage imbriqué, concluant que la limite de performances d’une implémentation BQN pure et monofilaire a été essentiellement atteinte.

Développement