Tensor Core를 사용한 CUDA에서의 행렬 곱셈 커널 최적화
2025-04-19
이 글에서는 NVIDIA Tesla T4 GPU에서 Tensor Core를 사용하여 CUDA 행렬 곱셈 커널을 최적화하는 과정을 자세히 설명합니다. 목표는 D = α * A * B + β * C를 최대한 빠르게 계산하는 것입니다. 6개의 커널을 반복적으로 최적화하여 저자는 NVIDIA의 cuBLAS hgemm과 비슷한 성능을 달성했으며, 계층적 타일링, 메모리 계층 구조 활용, 데이터 재사용, 계산과 데이터 이동의 중첩, Tensor Core의 효율적인 사용 등의 기법을 강조합니다. 저자는 프로파일링과 최적화를 통해 얻은 통찰력을 공유하고, 산술 강도와 메모리 대역폭의 중요성을 강조합니다.
개발