Conception d'une TPU minimaliste : Guide pour débutants en développement d'accélérateurs de puces
Cet article détaille la conception d'une unité de traitement tensoriel (TPU) minimaliste, inspirée des TPU V1 et V2 de Google. La TPU est constituée d'une grille de 2x2 éléments de traitement, effectuant des opérations de multiplication-accumulation, d'addition de biais, de fonction d'activation Leaky ReLU et de calculs de perte MSE en pipeline. Son jeu d'instructions de 94 bits contrôle le flux de données horizontalement et verticalement à travers la grille d'éléments de traitement, prenant en charge le prétraitement et la transposition des matrices de poids. L'article explique en détail le jeu d'instructions, l'architecture matérielle et le processus d'ajout de modules et d'exécution de tests, visant à initier les lecteurs à la conception d'accélérateurs de puces.