DeepGEMM: 깨끗하고 효율적인 FP8 GEMM 커널, 세분화된 스케일링 지원

2025-02-26
DeepGEMM: 깨끗하고 효율적인 FP8 GEMM 커널, 세분화된 스케일링 지원

DeepGEMM은 DeepSeek-V3에서 제안된 것처럼 세분화된 스케일링을 갖춘 NVIDIA Hopper 텐서 코어에서 깨끗하고 효율적인 FP8 일반 행렬 곱셈(GEMM)을 위한 라이브러리입니다. 일반 GEMM과 Mix-of-Experts(MoE) 그룹화 GEMM을 모두 지원하며, 경량 Just-In-Time(JIT) 컴파일러를 사용하므로 설치 중 컴파일이 필요하지 않습니다. FP8 텐서 코어의 누적 부정확성을 CUDA 코어의 2단계 누적(프로모션)으로 해결합니다. 간결한 설계(코어 코드는 약 300줄)에도 불구하고 DeepGEMM의 성능은 다양한 행렬 형태에서 전문가가 조정한 라이브러리와 동등하거나 우수합니다.

개발