AMD RDNA 4 架构的 WMMA 内核优化

2025-07-21
AMD RDNA 4 架构的 WMMA 内核优化

AMD RDNA 4 架构的 GPU 通过第三代矩阵核心提升了通用矩阵乘法 (GEMM) 运算性能。本文深入探讨了如何在 HIP 内核中使用 RDNA 4 GPU 的矩阵核心,特别是利用 WMMA (Wave Matrix Multiply Accumulate) 内核进行矩阵运算的优化技巧。文章详细介绍了 WMMA 的工作原理、新的内建函数 `__builtin_amdgcn_wmma_f32_16x16x16_f16_w32_gfx12` 的使用方法以及与 RDNA 3 架构的差异,并提供了一个简单的多层感知器 (MLP) 实现示例,展示如何在 RDNA 4 上高效执行矩阵运算。

阅读更多
硬件 WMMA

告别三角形!一种新的四边形渲染方法

2025-04-11
告别三角形!一种新的四边形渲染方法

实时计算机图形学长期以来依赖于三角形,因为GPU仅原生支持三角形的硬件加速光栅化。但这导致了将四边形分割成三角形时,纹理坐标、法线等顶点属性在公共边上出现C^1不连续性。本文提出了一种新方法,通过基于重心坐标的双线性插值系数的代数解,保留了来自凸四边形的两个生成三角形公共边的C^1连续性。该方法在几何着色器、细分着色器和网格着色器中均得到实现,显著提高了渲染质量,并具有极低的计算开销。

阅读更多
开发 四边形

面向计算机图形学的深度学习速成课程

2024-07-24
面向计算机图形学的深度学习速成课程

本文介绍了深度学习中的基本概念和算法,特别是多层感知器(MLP),并以图像纹理表示为例,详细解释了神经网络的结构、训练过程、反向传播算法等。此外,文章还探讨了输入编码、Adam优化器等改进网络性能的方法,并简要介绍了自动编码器和卷积网络等高级主题。

阅读更多
未分类