Plongeon en profondeur : Architectures GPU vs. TPU pour les LLMs
Cet article fournit une comparaison détaillée des architectures GPU et TPU, en se concentrant sur leurs unités de calcul principales, leurs hiérarchies de mémoire et leurs capacités réseau. En utilisant les GPU H100 et B200 comme exemples, il dissèque méticuleusement le fonctionnement interne des GPU modernes, notamment les multiprocesseurs de streaming (SM), les CUDA Cores, les Tensor Cores et l’interaction entre les différents niveaux de mémoire (SMEM, cache L2, HBM). L’article compare également les performances des GPU et des TPU en matière de communication collective (par exemple, AllReduce, AllGather), en analysant l’impact des différentes stratégies de parallélisme (parallélisme des données, parallélisme des tenseurs, parallélisme de pipeline, parallélisme des experts) sur l’efficacité de l’entraînement des grands modèles de langage. Enfin, il résume les stratégies de mise à l’échelle des LLMs sur les GPU, illustrées par des exemples de DeepSeek v3 et LLaMA-3.