FlashMLA: Hopper GPU를 위한 고효율 MLA 디코딩 커널

2025-02-24

FlashMLA는 가변 길이 시퀀스 제공을 위해 최적화된 Hopper GPU용 고효율 MLA 디코딩 커널입니다. CUDA 12.6을 사용하는 H800 SXM5에서 메모리 제한 구성에서는 최대 3000GB/s, 계산 제한 구성에서는 580TFLOPS의 성능을 달성합니다. FlashMLA는 BF16 정밀도와 블록 크기 64의 페이징된 kvcache를 사용합니다. FlashAttention 2&3과 Cutlass 프로젝트에서 영감을 받은 FlashMLA는 대규모 시퀀스 처리에서 상당한 성능 향상을 제공합니다.

(github.com)

개발 MLA 디코딩

캘리포니아의 방치된 전력선: 임박한 위험

블로거 회고: 심층 학습 게시물의 가치