Inmersión Profunda: Arquitecturas de GPU vs. TPU para LLMs

2025-08-20

Este artículo proporciona una comparación detallada de las arquitecturas de GPU y TPU, centrándose en sus unidades de cómputo principales, jerarquías de memoria y capacidades de red. Utilizando las GPU H100 y B200 como ejemplos, disecciona meticulosamente el funcionamiento interno de las GPU modernas, incluyendo los Multiprocesadores de Streaming (SM), CUDA Cores, Tensor Cores y la interacción entre los distintos niveles de memoria (SMEM, caché L2, HBM). El artículo también compara el rendimiento de GPU y TPU en la comunicación colectiva (por ejemplo, AllReduce, AllGather), analizando el impacto de diferentes estrategias de paralelismo (paralelismo de datos, paralelismo de tensores, paralelismo de pipeline, paralelismo de expertos) en la eficiencia del entrenamiento de modelos de lenguaje grandes. Finalmente, resume las estrategias para escalar LLMs en GPU, ilustradas con ejemplos de DeepSeek v3 y LLaMA-3.

IA