Webtagr - Résumé de news de technologie

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

Plongeon en profondeur : Architectures GPU vs. TPU pour les LLMs

2025-08-20

Cet article fournit une comparaison détaillée des architectures GPU et TPU, en se concentrant sur leurs unités de calcul principales, leurs hiérarchies de mémoire et leurs capacités réseau. En utilisant les GPU H100 et B200 comme exemples, il dissèque méticuleusement le fonctionnement interne des GPU modernes, notamment les multiprocesseurs de streaming (SM), les CUDA Cores, les Tensor Cores et l’interaction entre les différents niveaux de mémoire (SMEM, cache L2, HBM). L’article compare également les performances des GPU et des TPU en matière de communication collective (par exemple, AllReduce, AllGather), en analysant l’impact des différentes stratégies de parallélisme (parallélisme des données, parallélisme des tenseurs, parallélisme de pipeline, parallélisme des experts) sur l’efficacité de l’entraînement des grands modèles de langage. Enfin, il résume les stratégies de mise à l’échelle des LLMs sur les GPU, illustrées par des exemples de DeepSeek v3 et LLaMA-3.

Lire plus

L'alchimie de l'entraînement efficace des LLM : au-delà des limites de calcul

2025-02-04

Cet article explore en profondeur l’entraînement efficace des grands modèles de langage (LLM) à grande échelle. L’auteur soutient que, même avec des dizaines de milliers d’accélérateurs, des principes relativement simples peuvent améliorer considérablement les performances du modèle. Les sujets abordés incluent l’évaluation des performances du modèle, le choix de schémas de parallélisme à différentes échelles, l’estimation du coût et du temps d’entraînement des grands modèles Transformer et la conception d’algorithmes tirant parti des avantages spécifiques du matériel. Grâce à des explications détaillées des architectures TPU et GPU, et à une analyse approfondie de l’architecture Transformer, les lecteurs acquerront une meilleure compréhension des goulots d’étranglement de mise à l’échelle et concevront des modèles et des algorithmes plus efficaces.

Lire plus