本文对 AMD 最新发布的 Instinct MI300X 计算卡进行了详细测试,包括缓存和内存访问、带宽、本地内存、全局内存原子操作、计算吞吐量、链路带宽以及机器学习推理性能等多个方面。测试结果显示,MI300X 在硬件性能上全面超越了 NVIDIA 的 H100 PCIe,尤其是在机器学习推理方面表现优异。虽然 MI300X 在硬件上取得了巨大进步,但文章也指出,AMD 的软件生态系统 ROCm 与 NVIDIA 的 CUDA 相比仍有较大差距,这是 AMD 需要解决的关键问题。