FlashMLA: Hopper GPU를 위한 고효율 MLA 디코딩 커널
2025-02-24
FlashMLA는 가변 길이 시퀀스 제공을 위해 최적화된 Hopper GPU용 고효율 MLA 디코딩 커널입니다. CUDA 12.6을 사용하는 H800 SXM5에서 메모리 제한 구성에서는 최대 3000GB/s, 계산 제한 구성에서는 580TFLOPS의 성능을 달성합니다. FlashMLA는 BF16 정밀도와 블록 크기 64의 페이징된 kvcache를 사용합니다. FlashAttention 2&3과 Cutlass 프로젝트에서 영감을 받은 FlashMLA는 대규모 시퀀스 처리에서 상당한 성능 향상을 제공합니다.
개발
MLA 디코딩