Webtagr - 科技资讯摘要

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

2025-08-20

本文深入探讨了GPU和TPU的架构差异，从其核心计算单元、内存层次结构到网络连接方式，并以H100和B200为例，详细分析了现代GPU的内部结构，包括Streaming Multiprocessors (SMs)、CUDA Cores、Tensor Cores以及不同内存级别（SMEM、L2 Cache、HBM）之间的交互。文章还比较了GPU和TPU在集体通信（例如AllReduce、AllGather）方面的性能差异，并分析了不同并行策略（数据并行、张量并行、流水线并行、专家并行）对大型语言模型训练效率的影响。最后，文章总结了在GPU上扩展大型语言模型的策略，并以DeepSeek v3和LLaMA-3为例进行了说明。

大型语言模型高效训练的炼金术：超越算力极限

2025-02-04

本文深入探讨了大型语言模型（LLM）在海量算力下的高效训练方法。作者指出，即使在数万个加速器上，一些简单的原则也能显著提升模型性能。文章涵盖了模型性能评估、不同规模下并行方案的选择、大型Transformer模型的成本和时间估算、利用特定硬件优势的设计算法等方面。通过对TPU和GPU硬件架构的深入解读，以及Transformer架构的细致分析，读者将能够更好地理解模型缩放的瓶颈，并设计出更高效的模型和算法。

GPU与TPU的架构深度比较：从游戏渲染到大型语言模型

大型语言模型高效训练的炼金术：超越算力极限