TPUs de Google : Plongez au cœur de la conception conjointe matériel-logiciel pour des performances et une efficacité extrêmes
Cet article explore en profondeur l’architecture des TPU de Google, du niveau d’une seule puce au niveau multi-pod, en détaillant comment elles atteignent un débit et une efficacité énergétique extrêmement élevés grâce aux réseaux systoliques, à la compilation anticipée et à un réseau d’interconnexion unique. La philosophie de conception des TPU repose sur une co-optimisation matérielle et logicielle, où le compilateur XLA planifie les accès mémoire à l’avance, minimisant l’utilisation du cache et donc la consommation d’énergie. L’article analyse également l’impact des différentes topologies sur les performances d’entraînement et la manière dont Google utilise l’OCS pour permettre des configurations flexibles de tranches de TPU, améliorant ainsi l’utilisation des ressources.