Imersão Profunda: Arquiteturas de GPU vs. TPU para LLMs
Este artigo fornece uma comparação detalhada das arquiteturas de GPU e TPU, focando em suas unidades de computação principais, hierarquias de memória e capacidades de rede. Usando as GPUs H100 e B200 como exemplos, ele disseca meticulosamente o funcionamento interno das GPUs modernas, incluindo os Multiprocessadores de Streaming (SMs), CUDA Cores, Tensor Cores e a interação entre vários níveis de memória (SMEM, cache L2, HBM). O artigo também compara o desempenho de GPU e TPU em comunicação coletiva (por exemplo, AllReduce, AllGather), analisando o impacto de diferentes estratégias de paralelismo (paralelismo de dados, paralelismo de tensor, paralelismo de pipeline, paralelismo de especialistas) na eficiência do treinamento de modelos de linguagem grandes. Finalmente, ele resume as estratégias para escalar LLMs em GPUs, ilustradas com exemplos do DeepSeek v3 e LLaMA-3.