Projeto de TPU minimalista: Um guia para iniciantes no desenvolvimento de aceleradores de chips
Este artigo detalha um projeto minimalista de Unidade de Processamento de Tensor (TPU) inspirado nas TPU V1 e V2 do Google. A TPU possui uma grade de 2x2 elementos de processamento, processando operações de multiplicação-acumulação, adição de bias, função de ativação Leaky ReLU e cálculos de perda MSE em pipeline. Seu conjunto de instruções de 94 bits controla o fluxo de dados horizontal e verticalmente na grade de elementos de processamento, suportando pré-processamento e transposição de matrizes de pesos. O artigo explica detalhadamente o conjunto de instruções, a arquitetura de hardware e o processo de adicionar módulos e executar testes, com o objetivo de introduzir os leitores ao projeto de aceleradores de chips.