富士通Monaka CPU:采用ARMv9、SVE2和3D堆叠技术的数据中心处理器

2024-12-14

富士通即将推出名为Monaka的新一代数据中心CPU,预计2027年问世。Monaka采用ARMv9架构、SVE2扩展指令集和3D堆叠技术,其设计类似于AMD EPYC,拥有中央IO芯片和分离的SRAM和计算单元。每个Monaka CPU最多拥有144个核心,分布在4个36核的计算芯片上,采用2nm工艺制造。其IO部分将支持12通道DDR5内存(预计带宽超过600GB/s)和PCIe 6.0(包含CXL 3.0支持),并可实现风冷散热。Monaka并非A64FX的直接替代品,因为它不支持HBM,且更侧重于通用数据中心市场。

阅读更多
硬件 Monaka 3D堆叠

关闭 Zen 4 的操作缓存:好奇心与趣味

2024-12-11

本文探讨了关闭AMD Zen 4 CPU微操作缓存对性能的影响。作者通过禁用微操作缓存和循环缓冲区,将Zen 4从6宽核心变为4宽核心,并使用SPEC CPU2017和赛博朋克2077进行测试。结果显示,高IPC负载(如SPEC CPU2017中的部分测试)受影响较大,而低IPC负载和游戏性能几乎不受影响。SMT性能下降更为明显,因为更高的IPC增加了对前端的需求。作者认为,尽管微操作缓存对Zen 4至关重要,但CPU性能还受其他因素影响,例如后端内存延迟。

阅读更多
未分类 微操作缓存

Azure 专享 EPYC:AMD 的 MI300C

2024-12-07

本文介绍了Azure推出的新款HBv5虚拟机,该虚拟机搭载AMD EPYC 9v64H CPU。每个CPU拥有96个Zen 4核心和128GB HBM3E内存。一个HBv5虚拟机包含四个这样的CPU,共计352个Zen 4核心(每个CPU 88个核心,SMT禁用),内存带宽接近7TB/s。这是自Opteron以来首款支持四路插槽的AMD CPU,其四路插槽设置的Infinity Fabric总带宽是标准EPYC服务器的两倍。HBv5虚拟机采用单租户设计,即每个服务器在任何给定时间只运行一个虚拟机。

阅读更多

AMD 关闭 Zen 4 的循环缓冲区

2024-12-01

AMD 在最新的BIOS更新中悄然禁用了Zen 4处理器的循环缓冲区。该功能旨在通过在前端缓存少量指令来降低功耗并提高性能,尤其是在处理小型循环时。Chips and Cheese 通过 SPEC CPU2017 和游戏《赛博朋克 2077》的测试发现,禁用循环缓冲区对性能的影响微乎其微,因为 Zen 4 的操作缓存已足够提供后续重命名/分配阶段所需的带宽。虽然循环缓冲区的主要目的是节能,但实际测试表明,其对功耗的影响也很小。作者推测,AMD 禁用该功能可能是因为发现了未公开的硬件错误,或者仅仅是因为该功能收益有限。

阅读更多

挑战AMD无限架构的极限

2024-11-24

本文深入探讨了AMD自Zen架构以来使用的多级互连系统,特别是无限架构(Infinity Fabric)在高负载下的内存延迟表现。作者通过在不同AMD平台(Zen 2、Zen 4、Zen 5)上运行内存延迟测试和带宽负载测试,分析了核心数量、CCD(Core Complex Die)、CCX(Core Complex)以及IFOP(Infinity Fabric On-Package)接口对延迟的影响。结果表明,单CCD内核心竞争和IFOP带宽限制是导致延迟的主要瓶颈。Zen 4受此影响较大,而Zen 5通过改进的CCX设计和更快的DDR5内存缓解了这个问题。文章还分析了实际应用场景,发现游戏等客户端应用通常不会达到这些瓶颈,但部分多线程应用(如RawTherapee)在高负载下仍可能受到影响。

阅读更多

博睿eDRAM:VCache技术的先驱

2024-11-01

本文回顾了英特尔博睿处理器上使用的eDRAM L4缓存技术。博睿的eDRAM作为独立的77mm²晶片,通过OPIO接口与CPU连接,旨在提升iGPU性能。eDRAM拥有高带宽、低延迟等特性,但受限于OPIO接口带宽无法随核心数扩展。与没有eDRAM的Haswell相比,博睿在某些情况下延迟更低。然而,由于eDRAM的成本和有限的性能优势,博睿的桌面版发行受限,很快被Skylake取代。Skylake修改了eDRAM架构,降低了CPU性能。随着DDR4和DDR5的发展,eDRAM的带宽优势逐渐消失。

阅读更多
未分类 eDRAM 博睿

AMD 发布第五代 EPYC 处理器 Turin

2024-10-12

本文评测了AMD最新发布的第五代EPYC处理器Turin,重点关注其内存子系统改进。Turin支持高达DDR5-6400MT/s的内存速度,实测内存带宽接近理论值,延迟表现出色。此外,Turin在核心数量和频率方面也有提升,最高可达64核,单线程测试中所有核心均可达到5GHz。总体而言,Turin是Zen 4架构的迭代升级,为企业级市场提供了更强大的性能和价值。

阅读更多
未分类 EPYC

月影湖集成显卡:英特尔Xe2架构首秀

2024-10-09

本文评测了英特尔月影湖处理器中的锐炫Arc 140V集成显卡,重点关注其全新Xe2架构。Xe2架构在Xe-LPG/HPG基础上改进,旨在提高效率,并将用于月影湖和未来的“Battlemage”独立显卡。文章详细分析了Xe2架构的核心改进,包括Xe核心内的矢量引擎重组、缓存容量增加、光线追踪单元增强等。评测结果显示,月影湖集成显卡相比上一代产品在性能和效率方面均有显著提升,但在部分测试中仍然落后于AMD的同类产品。

阅读更多
未分类

Skymont:英特尔 E 核心的飞跃

2024-10-04

本文深入分析了英特尔最新E核心架构Skymont,对比了其与前代Crestmont的进步,以及与AMD Zen 5c等竞争对手的性能差异。Skymont在架构上进行了全面升级,包括更强大的分支预测、更深的乱序执行引擎、更快的浮点和向量执行单元等。然而,由于缓存子系统设计的改变,Skymont在实际性能表现上与预期存在差距,尤其是在缓存密集型任务中。总体而言,Skymont更偏向于低功耗设计,旨在提高能效,而非追求极致性能。

阅读更多
未分类

Intel最新P核架构Lion Cove深度评测:性能提升,能效优化

2024-09-28

本文深入分析了英特尔最新移动处理器Lunar Lake中使用的P核架构Lion Cove。Lion Cove相较于前代Redwood Cove进行了全面改进,包括更大的L2缓存、新增L1.5缓存、更强大的乱序执行引擎和更宽的流水线,以提升性能和能效。评测结果显示,Lion Cove在SPEC CPU2017测试中取得了显著的性能提升,单线程性能与AMD Strix Point不相上下,甚至接近桌面级处理器。文章最后对Lion Cove的未来发展表达了乐观预期,认为其在桌面级处理器Arrow Lake上将展现更强实力。

阅读更多
未分类

英特尔的 Redwood Cove:稳扎稳打

2024-09-23

本文深入分析了英特尔 Redwood Cove 微架构,这是对 Raptor Cove 的小幅升级,两者都基于 Golden Cove。Redwood Cove 主要改进在于前端,包括更好的分支预测、更大的指令和微操作缓存,以及新的指令融合案例。文章还详细比较了 Redwood Cove 和 Zen 4 在缓存、内存带宽、预取和 SMT 实现方面的差异,指出 Redwood Cove 虽然在某些方面有进步,但整体性能提升相对 AMD 较为保守。

阅读更多
未分类

Telum II亮相Hot Chips 2024:独特缓存策略打造的的IBM大型机处理器

2024-09-09

本文详细介绍了IBM最新大型机处理器Telum II的架构和特性,重点关注其独特的缓存策略。Telum II采用虚拟L3和L4缓存,通过在处理器芯片之间共享缓存容量,实现了低延迟和高带宽的数据访问。与传统CPU相比,Telum II更注重单线程性能,这使其在金融交易等对延迟敏感的领域表现出色。

阅读更多
未分类 大型机

特斯拉TTPoE:在Hot Chips 2024大会上提出用以替代TCP的低延迟应用方案

2024-08-28

在2024年Hot Chips大会上,特斯拉介绍了其TTPoE(基于以太网的Tesla传输协议),旨在为其Dojo超级计算机提供低延迟网络解决方案。TTPoE通过简化TCP协议的连接建立和关闭过程,并采用固定拥塞窗口,实现了微秒级的延迟。该协议通过名为“Mojo”的低成本网卡实现,该网卡配备硬件加速的TTPoE MAC,可有效处理数据传输和拥塞控制。

阅读更多

AMD Radeon 890M 评测:Strix Point 更强大的集成显卡

2024-08-25

本文评测了AMD Strix Point笔记本平台的 Radeon 890M 集成显卡,发现其性能相比上一代Phoenix平台的iGPU有明显提升,主要得益于更大的GPU规模和更高的频率。文章详细分析了890M的架构、缓存、内存带宽、计算吞吐量等方面,并通过FluidX3D和赛博朋克2077等测试软件对其性能进行了评估,结果显示890M在游戏性能上超越了竞品。

阅读更多
未分类

AMD 锐龙 Strix Point:Zen 5架构登陆移动平台

2024-08-11

本文深度分析了AMD Zen 5架构在锐龙 AI 9 HX 370处理器上的实现。Strix Point APU结合了Zen 5核心、RDNA 3.5 iGPU和AI功能。文章详细比较了Zen 5与Zen 4和英特尔Meteor Lake架构在分支预测、指令缓存、乱序执行、缓存和内存访问等方面的差异,指出Zen 5在核心宽度、重排序能力、缓存容量、分支预测精度等方面进行了全面改进,尤其关注了对SMT技术的优化,使其在多线程性能上表现出色。

阅读更多
未分类

Grace Hopper:英伟达的半成品APU

2024-08-10

Grace Hopper是英伟达进军高性能计算领域的一次尝试,它将72核心的Grace CPU和H100 GPU封装在一起,并通过NVLink C2C互连。虽然NVLink C2C提供了高带宽,但延迟较高,限制了其在CPU-GPU数据交换频繁的计算应用中的性能。Grace CPU采用大L3缓存和高频率设计,旨在加速并行计算,但在通用消费级负载和内存延迟方面表现不佳。H100 GPU性能强劲,但测试中出现了链接错误和系统崩溃问题,表明定制互连验证的难度。

阅读更多
未分类 Grace Hopper

Cortex A73的非无限乱序执行能力

2024-08-05

本文分析了ARM Cortex A73处理器的架构设计,特别是其乱序执行能力。A73采用了一种独特的乱序 retirement 机制,可以在某些情况下在未完成的加载指令之前就提交指令结果,从而提高效率。文章详细比较了A73与A72、A57在寄存器文件、内存访问、分支处理等方面的差异,指出A73通过更小的核心结构和更高的时钟频率来实现与A57相当的性能,证明了高IPC或高频率并非CPU设计的唯一途径。

阅读更多

Zen 5 的 2-Ahead 分支预测单元:一项 30 年前的技术如何实现新突破

2024-07-26

本文详细介绍了 AMD Zen 5 处理器架构中全新的 2-Ahead 分支预测单元。该技术早在 90 年代初期就被提出,但受限于当时的硬件条件未能实现。Zen 5 通过双端口指令提取、更大的分支目标缓冲区等设计,成功实现了 2-Ahead 分支预测,能够预测每个周期两个分支指令,显著提高了指令预取效率,提升了处理器性能。

阅读更多
未分类

亚马逊AWS Graviton 4 测评:Arm Neoverse V2 核心深度解析

2024-07-22

本文详细评测了亚马逊AWS Graviton 4服务器CPU,深入分析了其采用的Arm Neoverse V2核心架构。Graviton 4拥有96个Neoverse V2核心,采用CMN-700网状互连,支持双路配置,提供高达192核心和1536 GB DDR5内存。文章深入探讨了Neoverse V2核心的分支预测、指令获取与解码、乱序执行、整数和浮点/向量执行、加载/存储单元、缓存层次结构等方面,并通过与Zen 4等架构进行对比,揭示了Neoverse V2的优缺点。评测结果显示,Neoverse V2在某些方面表现出色,例如缓存延迟和分支预测,但在时钟速度和整体性能方面仍落后于Zen 4。

阅读更多
未分类 Neoverse V2

高通Oryon核心:漫长的研发之路

2024-07-11

高通于2024年7月9日发布了期待已久的Oryon CPU核心,用于其Snapdragon X Elite芯片。该核心源自高通于2021年收购的初创公司Nuvia的设计。Oryon是一款8宽核心,具有强大的乱序执行能力和大型缓存,旨在在笔记本电脑市场上与AMD和英特尔的芯片竞争。虽然基准测试显示Oryon在运行原生应用程序时表现出色,但它仍然面临着软件兼容性、平台碎片化和价格等挑战。

阅读更多
未分类

骁龙 X Elite 的 Adreno iGPU 评测

2024-07-04

本文评测了高通骁龙 X Elite 处理器中的 Adreno X1 iGPU,将其与英特尔 Meteor Lake 的 Xe-LPG 和 AMD Phoenix 的 RDNA 3 iGPU 进行比较。Adreno X1 在 32 位和 16 位浮点运算方面具有竞争力的计算吞吐量,并拥有比竞品更强的 DRAM 带宽。然而,Adreno X1 的缓存带宽较低,延迟表现平庸,寄存器文件容量也有限。虽然 GMEM 灵活,但 Adreno 似乎更适合像素着色器工作占主导地位的 DirectX 11 时代。此外,驱动程序和软件支持尚未完善。

阅读更多
未分类

AMD MI300X 测试报告:挑战 NVIDIA 硬件霸主地位

2024-06-25

本文对 AMD 最新发布的 Instinct MI300X 计算卡进行了详细测试,包括缓存和内存访问、带宽、本地内存、全局内存原子操作、计算吞吐量、链路带宽以及机器学习推理性能等多个方面。测试结果显示,MI300X 在硬件性能上全面超越了 NVIDIA 的 H100 PCIe,尤其是在机器学习推理方面表现优异。虽然 MI300X 在硬件上取得了巨大进步,但文章也指出,AMD 的软件生态系统 ROCm 与 NVIDIA 的 CUDA 相比仍有较大差距,这是 AMD 需要解决的关键问题。

阅读更多
未分类 MI300X

AMD Bergamo 评测:Zen 4c 核心数量翻倍

2024-06-22

本文对 AMD Bergamo 服务器 CPU 进行了详细评测,重点关注其 Zen 4c 核心架构。Zen 4c 通过降低时钟速度和减小缓存容量,实现了更高的核心密度, Bergamo 在相同面积内集成了两倍于 Zen 4 的核心数量。文章分析了 Bergamo 的内存带宽、延迟、核心间延迟等关键性能指标,并与 Intel 等竞争对手产品进行了比较。测试结果表明,Bergamo 在多线程性能方面表现出色,但在某些情况下,较小的 L3 缓存容量会导致性能下降。

阅读更多
未分类

英特尔详细介绍了 Skymont 架构

2024-06-18

本文详细介绍了英特尔即将推出的 Skymont 架构,这是其 Atom 处理器系列的一次重大升级。Skymont 旨在提高性能和效率,尤其是在矢量和浮点运算方面。主要改进包括更宽的前端、更大的后端、更强大的矢量/FP 执行单元和改进的内存子系统。与之前的 Atom 架构相比,Skymont 在每时钟周期性能方面有了显著提升,可与 Arm 的 Cortex X2 相媲美。

阅读更多
未分类

追踪英特尔 Atom 处理器的历程:Goldmont Plus 架构解析

2024-06-14

这篇文章深入探讨了英特尔 Atom 处理器发展历程中的 Goldmont Plus 架构。Goldmont Plus 于 2017 年末推出,采用 14 纳米制程,并在 2020 年停产。文章分析了 Goldmont Plus 的前端、乱序执行、内存执行、缓存和内存访问以及性能等方面,将其与 Silvermont、Core 2、Skylake 以及 AMD 的 Zen 等架构进行了比较。作者认为 Goldmont Plus 在功耗和性能之间取得了较好的平衡,但 DRAM 性能不佳、缓存偏小等问题也限制了其应用。

阅读更多
未分类

英特尔Lion Cove架构预览

2024-06-04

本文介绍了英特尔全新的Lion Cove架构,重点介绍了其关键改进,包括分离的整数和向量调度器、新的L1缓存层级、可选的超线程技术以及前端和乱序执行引擎的改进。这些改进使Lion Cove的每时钟性能提升了14%,并为未来针对特定设计进行优化提供了更大的灵活性。

阅读更多
未分类 Lion Cove

关于Skymont幻灯片的思考

2024-05-31

本文分析了泄露的英特尔Skymont CPU架构幻灯片,重点关注其性能提升。Skymont的IPC(每时钟周期指令数)预计将大幅提升,这得益于更宽的指令提取和解码、更大的乱序执行引擎以及其他增强功能。该分析还探讨了Skymont在桌面和移动设备上的潜在应用,突出了其作为英特尔CPU战略关键部分的重要性。

阅读更多
未分类 CPU架构 Skymont

高通Oryon LLVM补丁

2024-05-15

高通最新笔记本电脑SOC Snapdragon X Elite (SDXE) 采用了来自Nuvia团队的定制ARM核心,名为Oryon。文章深入研究了最近上传的LLVM补丁,该补丁揭示了Oryon核心的结构布局。文章详细分析了Oryon核心的流水线描述、L1数据缓存、整数和向量调度器以及内存子系统,并将其与其他高性能核心(如Apple的Firestorm和Zen 4)进行了比较。分析表明,Oryon与Firestorm有许多相似之处,但两者之间也存在一些关键差异。

阅读更多
未分类 高通

Meteor Lake 的 E 核:Crestmont 取得渐进式进展

2024-05-13

本文分析了英特尔最新移动处理器 Meteor Lake 的 E 核架构 Crestmont,与前代 Gracemont 相比,Crestmont 在分支预测、重命名器、浮点除法器等方面进行了改进,但整体架构改动较小,属于保守升级。作者认为,Meteor Lake 采用了全新的chiplet设计,并引入了新的 NPU 和 iGPU 架构,这些变化给工程团队带来了巨大挑战,保守的 CPU 架构升级是合理的。文章最后指出,Crestmont 仍未支持 AVX-512,L3 性能欠佳,DTLB 容量和 L2 TLB 延迟也存在不足,期待未来 Intel 能充分利用其工程实力,在 Crestmont 的继任者上做出更大的改进。

阅读更多
未分类 Intel Meteor Lake
← 前页 1