메가커널: LLM 추론 지연 시간 극복

2025-05-28
메가커널: LLM 추론 지연 시간 극복

챗봇과 같은 저지연 애플리케이션에서 대규모 언어 모델(LLM)의 속도를 높이기 위해 연구자들은 '메가커널' 기술을 개발했습니다. 이 기술은 Llama-1B 모델의 순전파를 단일 커널로 합쳐 기존의 다중 커널 방식에서 발생하는 커널 경계 오버헤드와 메모리 파이프라인 정체를 제거합니다. 그 결과 H100 및 B200 GPU에서 기존 시스템보다 1.5배 이상 빠른 속도 향상과 극적으로 낮은 지연 시간을 달성했습니다.