AMD RDNA 4 아키텍처에서 WMMA 커널 최적화
2025-07-21
3세대 매트릭스 코어를 탑재한 AMD RDNA™ 4 아키텍처 GPU는 일반화 행렬 곱셈(GEMM) 연산의 성능을 크게 향상시켰습니다. 이 기사에서는 RDNA 4 GPU에서 HIP 커널을 사용하여 WMMA(Wave Matrix Multiply Accumulate) 내장 함수로 행렬 연산을 최적화하는 방법을 자세히 설명합니다. WMMA의 기능, `__builtin_amdgcn_wmma_f32_16x16x16_f16_w32_gfx12`와 같은 새로운 내장 함수 및 RDNA 3 아키텍처와의 주요 차이점을 설명합니다. 단순화된 다층 퍼셉트론(MLP) 구현 예는 RDNA 4에서 효율적인 행렬 계산을 보여줍니다.
더 보기
하드웨어