cuBLAS와 CUTLASS를 뛰어넘는 새로운 행렬 곱셈 커널 엔진
2025-07-19
행렬 곱셈은 특히 AI 분야에서 속도가 모델 성능에 직접적인 영향을 미치기 때문에 현대 컴퓨팅의 핵심입니다. NVIDIA의 Tensor Core와 같은 하드웨어 가속기는 효율적이지만 유연성이 부족합니다. 본 논문에서는 다양한 플랫폼에서 최적화된 행렬 곱셈 커널을 생성하는 새로운 엔진인 CubeCL을 소개합니다. CubeCL은 계층적 추상화(Tile, Stage, Global, Batch Matmul)와 다양한 알고리즘(Simple, Double Buffering, Ordered 등)을 사용하여 이를 달성합니다. GPU 아키텍처의 특징, 예를 들어 플레인 동기 실행 및 결합된 메모리 액세스를 효과적으로 활용하고, 더블 버퍼링과 같은 기술을 사용하여 메모리 대기 시간을 숨깁니다. 벤치마크 결과는 다양한 GPU(NVIDIA, AMD, Apple Silicon)에서 상당한 성능 향상을 보여주며, 경우에 따라 cuBLAS 및 CUTLASS를 능가하는 결과를 보입니다.
(burn.dev)
개발