缺失的增量之谜

2024-10-01

本文分析了在英特尔Golden Cove微架构中,一个简单的循环测试程序性能异常的现象。作者通过详细的测试和分析,发现该架构能够在一个时钟周期内执行两次串行依赖的增量操作,从而实现比预期更高的吞吐量。作者推测Golden Cove可能在指令重命名阶段优化了立即数加法操作,并通过AnandTech对英特尔架构日活动的报道找到了部分佐证。

阅读更多
未分类 指令优化

Zen、CUDA 和 Tensor 核心详解(一):硅的秘密

2024-09-07

本文详细分析了AMD Zen 4 CPU核心、NVIDIA Ada Lovelace架构GPU的CUDA核心和Tensor核心的区别,通过剖析芯片照片,展示了它们在物理尺寸和结构上的差异。Zen 4核心体积最大,结构最复杂;而CUDA和Tensor核心体积更小,其中Tensor核心体积大于CUDA核心。文章还解释了芯片制造中的“Binning”机制,即根据缺陷情况对芯片进行分类和定价,这也解释了为什么芯片的物理核心数量可能多于官方参数中列出的数量。

阅读更多
未分类 芯片架构