TPUs do Google: Uma Imersão no Co-design de Hardware e Software para Desempenho e Eficiência Extremos
2025-06-22
Este artigo mergulha na arquitetura das TPUs do Google, do nível de chip único ao nível de multi-pod, detalhando como elas alcançam throughput e eficiência de energia extremamente altos por meio de matrizes sistólicas, compilação antecipada e uma rede de interconexão exclusiva. A filosofia de design da TPU centra-se na co-otimização de hardware e software, em que o compilador XLA planeja previamente os acessos à memória, minimizando o uso do cache e, portanto, o consumo de energia. O artigo também analisa o impacto de diferentes topologias no desempenho do treinamento e como o Google usa OCS para habilitar configurações flexíveis de fatias de TPU, melhorando a utilização de recursos.
Hardware