Hot Chips 2025: AI 浪潮下的液冷技术革新

2025-09-05
Hot Chips 2025: AI 浪潮下的液冷技术革新

Hot Chips 2025 展会展示了针对AI 芯片的高级液冷技术。厂商们展示了各种微喷射式冷板,能够精准冷却芯片热点区域,甚至直接将水喷射到芯片表面。这种技术虽然目前主要应用于服务器领域,但其精准控温的优势有望未来惠及消费级硬件。展会还展示了多种材质的冷板,例如轻便的铝制冷板和高效散热的铜制冷板,以满足不同服务器的重量和散热需求。面对AI 芯片日益增长的功耗和发热量,这些液冷技术的创新将成为数据中心冷却的关键解决方案。

阅读更多
硬件

Condor Computing发布高性能RISC-V核心Cuzco

2025-08-30
Condor Computing发布高性能RISC-V核心Cuzco

Andes Technology子公司Condor Computing在Hot Chips 2025上发布了其高性能RISC-V核心Cuzco。Cuzco采用8宽乱序执行,具有现代分支预测器和基于时间的新型调度方案,性能可与SiFive的P870和Veyron的V1相媲美。其独特的“时间调度”机制在后端采用静态调度,降低功耗和复杂度,无需修改指令集架构或编译器即可获得最佳性能。Cuzco高度可配置,可根据客户需求调整参数,并支持多核集群。

阅读更多
硬件

谷歌数据中心液冷技术:AI 时代的冷却革命

2025-08-26
谷歌数据中心液冷技术:AI 时代的冷却革命

随着AI的兴起,数据中心的散热问题日益严峻。谷歌在Hot Chips 2025大会上展示了其为TPU定制的大规模液冷系统。该系统采用CDU(冷却液分配单元)进行机架级冷却,相比传统风冷,显著降低能耗,并通过冗余设计保证系统稳定性。此外,谷歌还采用了类似于PC玩家“去盖”技术的裸片设计,以提高TPUv4的散热效率。这项技术不仅解决了AI算力带来的巨大散热挑战,也为未来数据中心冷却方案提供了新的方向。

阅读更多
科技

英特尔Lion Cove架构深度剖析:游戏性能如何?

2025-07-07
英特尔Lion Cove架构深度剖析:游戏性能如何?

英特尔最新高性能CPU架构Lion Cove,在SPEC CPU2017基准测试中表现出色,甚至能与AMD Zen 5抗衡。然而,游戏负载对CPU的要求与生产力负载不同。本文深入分析Lion Cove在游戏中的性能表现,通过对缓存层次结构、指令执行延迟、分支预测等方面的详细数据解读,揭示了Lion Cove在游戏场景下优缺点,以及与Zen 4的对比。结果显示,Lion Cove前端性能强劲,但后端内存延迟成为瓶颈,游戏性能提升空间仍有待挖掘。

阅读更多
硬件

Nvidia Blackwell架构:巨型GPU的极致性能与挑战

2025-06-29
Nvidia Blackwell架构:巨型GPU的极致性能与挑战

Nvidia最新的Blackwell架构GPU,特别是旗舰RTX PRO 6000,以其巨大的GB202芯片(750mm²,922亿晶体管)和惊人的188个SM单元,展现了在计算性能方面的绝对优势。文章深入分析了Blackwell架构的微架构细节,包括指令缓存、执行单元、内存子系统等,并将其与AMD的RDNA4架构进行了对比。虽然在某些方面,例如L2缓存性能和每单元效率,Blackwell并非完美无缺,但其庞大的规模使其在整体性能上远超竞争对手,成为目前最大的消费级GPU。然而,这种极致的追求也带来了挑战,例如功耗(600W)和L2缓存延迟等问题。文章结尾展望了未来GPU市场竞争的格局。

阅读更多
硬件 Blackwell

AMD Instinct MI350: 基于GCN架构的AI加速器深度解析

2025-06-20
AMD Instinct MI350: 基于GCN架构的AI加速器深度解析

AMD首席Instinct架构师Alan Smith接受采访,深入解读了基于GFX9架构的全新MI350系列AI加速器。MI350虽然沿用GFX9架构,但通过提升LDS容量至160KB并提升带宽,以及引入微型缩放格式支持FP8、FP6和FP4数据类型,显著提升了性能。值得注意的是,MI350的FP6和FP4拥有相同吞吐量,这源于AMD对FP6在训练和推理领域的潜力看好。此外,MI350放弃了TF32硬件加速,转而优化BF16,并提供软件模拟以支持TF32。MI350采用N3P工艺的计算芯片和N6工艺的I/O芯片,通过减少计算单元数量并优化设计,在降低功耗的同时保证了性能。

阅读更多
硬件 MI350

AMD CDNA 4 架构:在矩阵运算和向量运算之间取得平衡

2025-06-17
AMD CDNA 4 架构:在矩阵运算和向量运算之间取得平衡

AMD发布了最新的CDNA 4计算GPU架构,它在CDNA 3的基础上进行了适度升级,主要提升了低精度数据类型的矩阵乘法性能,这对于机器学习负载至关重要。同时,CDNA 4还保持了AMD在更广泛应用的向量运算方面的领先优势。通过采用与CDNA 3类似的多芯片设计,并提升时钟速度,CDNA 4在保持高吞吐量的同时,改进了本地数据共享(LDS)的容量和带宽,并引入了读取转置LDS指令,优化了矩阵乘法效率。虽然在低精度矩阵运算方面仍落后于Nvidia的Blackwell架构,但在向量运算和高精度数据类型方面,CDNA 4凭借更高的核心数和时钟速度保持了显著优势。

阅读更多
硬件

AMD Trinity APU 的内存互联:一个充满妥协的十年

2025-06-17
AMD Trinity APU 的内存互联:一个充满妥协的十年

本文深入探讨了AMD Trinity APU(2012年发布)的内存互联架构。不同于后来的Infinity Fabric,Trinity采用“Onion”和“Garlic”两种链接方式连接CPU和iGPU,前者保证缓存一致性但带宽受限,后者带宽高但无法保证一致性。这种设计是基于当时Athlon 64架构的妥协,导致CPU和GPU访问对方内存时性能受损。虽然在游戏等图形负载下表现尚可,但与Intel Sandy Bridge/Ivy Bridge的集成式iGPU相比,Trinity的架构显得不够优雅高效。作者通过测试和数据分析,详细阐述了两种链接方式的工作原理、优缺点及性能影响,并以多个游戏和图像处理程序为例,展示了Trinity架构下的内存带宽使用情况。

阅读更多
硬件 APU 内存互联

IBM Telum II:颠覆性的主框架处理器及其虚拟缓存策略

2025-05-19
IBM Telum II:颠覆性的主框架处理器及其虚拟缓存策略

IBM最新的主框架处理器Telum II采用8个5.5GHz核心和360MB片上缓存,并整合了DPU和AI加速器。其最引人注目的特性在于创新的虚拟L3和L4缓存策略。通过巧妙的饱和度指标和缓存替换策略,Telum II将多个L2缓存虚拟化为巨大的L3和跨芯片的L4,极大提升了单线程性能,即使在多达32个处理器协同工作的情况下也能保持极低的延迟。这种策略或可为未来客户端CPU设计提供借鉴,但需要克服跨芯片互连带宽的限制。

阅读更多
硬件 虚拟缓存

国产CPU“世纪大道”架构深度解析:追赶之路上的挑战与进步

2025-04-30
国产CPU“世纪大道”架构深度解析:追赶之路上的挑战与进步

中国CPU设计公司兆芯最新发布的KX-7000处理器采用名为“世纪大道”的新架构,其性能目标直指Intel 2010年代初的CPU。虽然KX-7000在某些方面取得了显著进步,例如拥有更宽的4-wide核心和更高的主频,但在缓存带宽、分支预测和内存子系统等方面仍存在不足,其单线程性能大致与AMD的Bulldozer相当。虽然在SPEC CPU2017测试中展现出比Bulldozer更好的浮点性能,但在多线程性能方面仍逊色于Bulldozer和Intel Skylake。文章认为,KX-7000并非旨在与AMD和Intel直接竞争,而是为了满足中国国内对自主CPU的需求,在追求性能的同时也面临着技术和资源上的挑战。

阅读更多
硬件 兆芯 KX-7000

RDNA 4 的动态 VGPR 分配:解决光线追踪中的瓶颈

2025-04-05
RDNA 4 的动态 VGPR 分配:解决光线追踪中的瓶颈

AMD RDNA 4 架构引入了一种创新的动态 VGPR(向量通用寄存器)分配模式,以解决光线追踪中寄存器数量与线程占用率之间的权衡难题。传统GPU在处理光线追踪时,由于每个线程的寄存器分配固定,高寄存器需求的阶段会限制线程并行度,从而影响性能。RDNA 4 的动态分配模式允许线程在运行时动态调整寄存器数量,从而在不增加寄存器文件大小的情况下提高线程占用率,降低延迟,提升光线追踪性能。虽然这种模式也可能导致死锁,但AMD通过死锁避免模式进行缓解。这项技术并非万能药,仅限于 wave32 计算着色器,但为AMD在光线追踪技术上的进步提供了有力支撑。

阅读更多

AMD RDNA 4内存子系统改进:告别伪依赖,提升性能

2025-03-23
AMD RDNA 4内存子系统改进:告别伪依赖,提升性能

AMD RDNA 4架构在内存子系统方面进行了重大改进,解决了RDNA 3及更早架构中存在的波前之间伪依赖问题。此前,一个波前可能因另一个波前的内存读取而阻塞,导致性能下降。RDNA 4通过引入新的乱序队列,允许不同着色器的请求乱序执行,从而避免了这种性能瓶颈。本文通过实际测试验证了这一改进,并比较了AMD、Intel和Nvidia不同GPU架构在处理波前间内存依赖方面的差异,最终得出结论:RDNA 4的改进虽然并非全新技术,但对提升性能,尤其是在光线追踪等新兴工作负载方面,具有显著意义。

阅读更多

英特尔Xe3显卡架构深度解析:多项改进剑指高端市场

2025-03-19
英特尔Xe3显卡架构深度解析:多项改进剑指高端市场

英特尔Xe3显卡架构细节曝光,其软件开发工作已在多个开源代码库中可见。Xe3核心数量最多可达256个,远超上一代,并支持高达32768个FP32计算单元。改进包括:每个XVE可同时运行10个线程,灵活的寄存器分配,更多记分牌令牌,以及新的gather-send指令。此外,Xe3还引入了STOC(子三角不透明剔除)技术,通过细分三角形来减少不必要的着色器工作,提升光线追踪性能。这些改进使Xe3在性能和效率上更接近AMD和Nvidia,预示着英特尔在高端显卡市场上的雄心壮志。

阅读更多
硬件 Xe3 显卡架构

英特尔Battlemage架构光线追踪性能深度剖析

2025-03-16
英特尔Battlemage架构光线追踪性能深度剖析

本文深入分析了英特尔Arc B580显卡在Battlemage架构下光线追踪的性能表现。通过对《赛博朋克2077》路径追踪和3DMark Port Royal基准测试的分析,文章揭示了Battlemage架构中光线追踪加速器(RTA)的改进,包括三倍的光线遍历管道、加倍的三角形相交测试率以及16KB的BVH缓存。尽管在处理《赛博朋克2077》路径追踪时,高占用率并未转化为高执行单元利用率,但改进后的缓存和架构在Port Royal基准测试中表现出色。文章指出,Battlemage架构在光线追踪性能方面取得了显著进步,但内存子系统仍然是性能瓶颈。

阅读更多
硬件

AMD Strix Halo SoC:掌上Threadripper的惊艳亮相

2025-03-14
AMD Strix Halo SoC:掌上Threadripper的惊艳亮相

在CES 2025上,AMD高级研究员Mahesh Subramony揭秘了全新Strix Halo SoC。这款SoC整合了Zen 5架构CPU和强大的iGPU,实现了CPU和GPU性能的完美平衡。与桌面Zen 5相比,Strix Halo在功耗方面进行了优化,采用创新的die-to-die互联技术,降低延迟并提高效率。此外,32MB的MALL缓存主要用于提升GPU带宽,虽然CPU无法直接访问,但架构设计灵活,未来可通过软件更新扩展其功能。Strix Halo旨在成为高性能移动工作站,拥有512位FPU和出色的多线程性能。

阅读更多
硬件 Strix Halo SoC

Zen 5:AMD如何优雅地驾驭512位AVX指令集

2025-03-01
Zen 5:AMD如何优雅地驾驭512位AVX指令集

本文深入探讨了AMD Zen 5架构在高频下运行AVX-512指令集时的表现。不同于Intel Skylake-X的固定频率偏移和较长的过渡期,Zen 5利用改进的片上传感器和自适应时钟技术,在5.7GHz峰值频率下实现了完整的AVX-512性能。测试显示,Zen 5在遭遇AVX-512工作负载时,不会出现明显的频率骤降,而是在需要时进行细粒度的IPC(指令周期)调整,以维持高性能。这种动态调整机制有效地避免了频繁的频率转换,确保了在高负载和低负载之间切换时的流畅性。虽然在极端情况下,可能会出现短暂的IPC下降,但整体而言,Zen 5对AVX-512的支持表现出色,显著优于之前的Intel架构。

阅读更多
硬件

英特尔Battlemage架构深度剖析:Arc B580能否挑战AMD和Nvidia?

2025-02-11
英特尔Battlemage架构深度剖析:Arc B580能否挑战AMD和Nvidia?

英特尔发布了新的Battlemage显卡架构,其Arc B580以12GB显存和250美元的价格冲击中端市场,挑战AMD和Nvidia。文章深入分析了Battlemage架构的改进,包括更宽的Xe向量引擎、改进的缓存机制和更优化的内存访问,以及与Alchemist架构的对比。虽然B580的规格参数不如竞争对手,但实际测试结果显示其性能令人印象深刻,甚至超越了上一代A770。然而,驱动程序问题和对Resizable BAR的依赖仍然是英特尔需要解决的挑战。

阅读更多
硬件

阿里巴巴自研RISC-V核心C910深度剖析:雄心与不足

2025-02-04
阿里巴巴自研RISC-V核心C910深度剖析:雄心与不足

阿里巴巴旗下T-HEAD推出的高性能RISC-V核心C910,旨在降低对国外芯片的依赖,并为物联网和边缘计算等领域提供高性价比的解决方案。文章深入分析了C910的架构,包括其乱序执行引擎、分支预测器、缓存系统等,并通过实际测试数据揭示其性能特点。C910在向量扩展和非对齐访问处理方面表现出色,但在调度器、寄存器文件等关键结构的容量与ROB容量的平衡性方面存在不足,缓存系统也相对薄弱,这限制了其整体性能。文章总结认为,虽然C910展现了T-HEAD的雄心,但其在平衡核心架构和内存子系统方面仍需改进。

阅读更多
硬件

SiFive P550微架构深度剖析:RISC-V的雄心壮志

2025-01-27
SiFive P550微架构深度剖析:RISC-V的雄心壮志

本文深入探讨了SiFive的P550微架构,这是一个面向高性能应用的RISC-V处理器核心。P550采用三发射乱序执行架构,拥有13级流水线,旨在以低于Arm Cortex A75一半的面积实现30%的性能提升。文章通过与Cortex A75的对比,详细分析了P550的分支预测、指令获取和译码、乱序执行、内存子系统等方面,指出P550在某些方面(如未对齐内存访问)表现不佳,但整体而言,它代表了RISC-V向高性能目标迈出的重要一步。虽然P550仍有改进空间,但其在构建高性能通用CPU的道路上展示了SiFive的潜力。

阅读更多
硬件 P550

深度解析Zen 5架构:禁用操作缓存后的解码器集群表现

2025-01-24
深度解析Zen 5架构:禁用操作缓存后的解码器集群表现

本文深入探讨了AMD Zen 5处理器的指令预取和解码机制。Zen 5采用独特的双解码器集群架构,每个集群服务于一个SMT线程。通常情况下,Zen 5依赖6KB的操作缓存来提供指令,解码器仅在缓存未命中时工作。作者通过禁用操作缓存,强制解码器处理所有指令,以此评测解码器的性能。测试结果显示,在单线程下,禁用操作缓存后性能大幅下降;但在多线程下,双解码器集群能够有效弥补性能损失,尤其在一些多线程工作负载下,甚至能取得性能提升。作者认为,Zen 5的双解码器集群设计并非主要指令来源,而是作为辅助,在高IPC和多线程场景下提升性能,与操作缓存相辅相成,实现了性能与功耗的平衡。

阅读更多
硬件

英特尔Skymont架构深度剖析:E核的性能飞跃?

2025-01-18
英特尔Skymont架构深度剖析:E核的性能飞跃?

英特尔最新的Lunar Lake移动芯片采用Skymont架构的E核,取代了Meteor Lake上的Crestmont架构。Skymont架构在多线程性能和低功耗背景任务处理方面取得了显著提升。文章深入分析了Skymont架构的各个方面,包括分支预测、指令获取和解码、乱序执行引擎、整数执行、浮点和向量执行、负载/存储以及缓存和内存访问。虽然Skymont在某些基准测试中表现出色,但在与Meteor Lake的Crestmont核心和AMD的Zen 5c核心相比时,其优势并不总是显而易见。这突显了缓存体系结构在CPU性能中扮演的关键角色,以及一个核心架构同时兼顾低功耗和高性能多线程的挑战。

阅读更多
硬件 E核

AMD Radeon Instinct MI300A:巨型APU的无限架构探秘

2025-01-18
AMD Radeon Instinct MI300A:巨型APU的无限架构探秘

AMD Radeon Instinct MI300A是一款整合了24个Zen 4核心和228个CDNA3计算单元的巨型APU。文章深入探讨了其庞大的Infinity Fabric互联架构,包括其高带宽、低延迟的特性,以及如何在CPU和GPU之间实现高效的数据共享。尽管其高带宽内存子系统对GPU非常有利,但对CPU的延迟影响较大,导致其单线程整数性能与几年前的Ryzen 9 3950X相当。然而,MI300A在超级计算领域取得了显著成功,例如在LLNL的El Capitan系统中使用,并占据了TOP500榜首。

阅读更多
硬件 MI300A

富士通Monaka CPU:采用ARMv9、SVE2和3D堆叠技术的数据中心处理器

2024-12-14
富士通Monaka CPU:采用ARMv9、SVE2和3D堆叠技术的数据中心处理器

富士通即将推出名为Monaka的新一代数据中心CPU,预计2027年问世。Monaka采用ARMv9架构、SVE2扩展指令集和3D堆叠技术,其设计类似于AMD EPYC,拥有中央IO芯片和分离的SRAM和计算单元。每个Monaka CPU最多拥有144个核心,分布在4个36核的计算芯片上,采用2nm工艺制造。其IO部分将支持12通道DDR5内存(预计带宽超过600GB/s)和PCIe 6.0(包含CXL 3.0支持),并可实现风冷散热。Monaka并非A64FX的直接替代品,因为它不支持HBM,且更侧重于通用数据中心市场。

阅读更多
硬件 Monaka 3D堆叠

关闭 Zen 4 的操作缓存:好奇心与趣味

2024-12-11
关闭 Zen 4 的操作缓存:好奇心与趣味

本文探讨了关闭AMD Zen 4 CPU微操作缓存对性能的影响。作者通过禁用微操作缓存和循环缓冲区,将Zen 4从6宽核心变为4宽核心,并使用SPEC CPU2017和赛博朋克2077进行测试。结果显示,高IPC负载(如SPEC CPU2017中的部分测试)受影响较大,而低IPC负载和游戏性能几乎不受影响。SMT性能下降更为明显,因为更高的IPC增加了对前端的需求。作者认为,尽管微操作缓存对Zen 4至关重要,但CPU性能还受其他因素影响,例如后端内存延迟。

阅读更多
未分类 微操作缓存

Azure 专享 EPYC:AMD 的 MI300C

2024-12-07
Azure 专享 EPYC:AMD 的 MI300C

本文介绍了Azure推出的新款HBv5虚拟机,该虚拟机搭载AMD EPYC 9v64H CPU。每个CPU拥有96个Zen 4核心和128GB HBM3E内存。一个HBv5虚拟机包含四个这样的CPU,共计352个Zen 4核心(每个CPU 88个核心,SMT禁用),内存带宽接近7TB/s。这是自Opteron以来首款支持四路插槽的AMD CPU,其四路插槽设置的Infinity Fabric总带宽是标准EPYC服务器的两倍。HBv5虚拟机采用单租户设计,即每个服务器在任何给定时间只运行一个虚拟机。

阅读更多

AMD 关闭 Zen 4 的循环缓冲区

2024-12-01
AMD 关闭 Zen 4 的循环缓冲区

AMD 在最新的BIOS更新中悄然禁用了Zen 4处理器的循环缓冲区。该功能旨在通过在前端缓存少量指令来降低功耗并提高性能,尤其是在处理小型循环时。Chips and Cheese 通过 SPEC CPU2017 和游戏《赛博朋克 2077》的测试发现,禁用循环缓冲区对性能的影响微乎其微,因为 Zen 4 的操作缓存已足够提供后续重命名/分配阶段所需的带宽。虽然循环缓冲区的主要目的是节能,但实际测试表明,其对功耗的影响也很小。作者推测,AMD 禁用该功能可能是因为发现了未公开的硬件错误,或者仅仅是因为该功能收益有限。

阅读更多

挑战AMD无限架构的极限

2024-11-24
挑战AMD无限架构的极限

本文深入探讨了AMD自Zen架构以来使用的多级互连系统,特别是无限架构(Infinity Fabric)在高负载下的内存延迟表现。作者通过在不同AMD平台(Zen 2、Zen 4、Zen 5)上运行内存延迟测试和带宽负载测试,分析了核心数量、CCD(Core Complex Die)、CCX(Core Complex)以及IFOP(Infinity Fabric On-Package)接口对延迟的影响。结果表明,单CCD内核心竞争和IFOP带宽限制是导致延迟的主要瓶颈。Zen 4受此影响较大,而Zen 5通过改进的CCX设计和更快的DDR5内存缓解了这个问题。文章还分析了实际应用场景,发现游戏等客户端应用通常不会达到这些瓶颈,但部分多线程应用(如RawTherapee)在高负载下仍可能受到影响。

阅读更多

博睿eDRAM:VCache技术的先驱

2024-11-01
博睿eDRAM:VCache技术的先驱

本文回顾了英特尔博睿处理器上使用的eDRAM L4缓存技术。博睿的eDRAM作为独立的77mm²晶片,通过OPIO接口与CPU连接,旨在提升iGPU性能。eDRAM拥有高带宽、低延迟等特性,但受限于OPIO接口带宽无法随核心数扩展。与没有eDRAM的Haswell相比,博睿在某些情况下延迟更低。然而,由于eDRAM的成本和有限的性能优势,博睿的桌面版发行受限,很快被Skylake取代。Skylake修改了eDRAM架构,降低了CPU性能。随着DDR4和DDR5的发展,eDRAM的带宽优势逐渐消失。

阅读更多
未分类 eDRAM 博睿

AMD 发布第五代 EPYC 处理器 Turin

2024-10-12
AMD 发布第五代 EPYC 处理器 Turin

本文评测了AMD最新发布的第五代EPYC处理器Turin,重点关注其内存子系统改进。Turin支持高达DDR5-6400MT/s的内存速度,实测内存带宽接近理论值,延迟表现出色。此外,Turin在核心数量和频率方面也有提升,最高可达64核,单线程测试中所有核心均可达到5GHz。总体而言,Turin是Zen 4架构的迭代升级,为企业级市场提供了更强大的性能和价值。

阅读更多
未分类 EPYC

月影湖集成显卡:英特尔Xe2架构首秀

2024-10-09
月影湖集成显卡:英特尔Xe2架构首秀

本文评测了英特尔月影湖处理器中的锐炫Arc 140V集成显卡,重点关注其全新Xe2架构。Xe2架构在Xe-LPG/HPG基础上改进,旨在提高效率,并将用于月影湖和未来的“Battlemage”独立显卡。文章详细分析了Xe2架构的核心改进,包括Xe核心内的矢量引擎重组、缓存容量增加、光线追踪单元增强等。评测结果显示,月影湖集成显卡相比上一代产品在性能和效率方面均有显著提升,但在部分测试中仍然落后于AMD的同类产品。

阅读更多
未分类
← 前页 1