메가커널: LLM 추론 지연 시간 극복

2025-05-28

챗봇과 같은 저지연 애플리케이션에서 대규모 언어 모델(LLM)의 속도를 높이기 위해 연구자들은 '메가커널' 기술을 개발했습니다. 이 기술은 Llama-1B 모델의 순전파를 단일 커널로 합쳐 기존의 다중 커널 방식에서 발생하는 커널 경계 오버헤드와 메모리 파이프라인 정체를 제거합니다. 그 결과 H100 및 B200 GPU에서 기존 시스템보다 1.5배 이상 빠른 속도 향상과 극적으로 낮은 지연 시간을 달성했습니다.

(hazyresearch.stanford.edu)

AI 저지연 추론

나노입자-세포 인터페이스를 이용한 포유류 트랜스진 발현의 전자기적 무선 프로그래밍

Michael Larabel: 20년간의 Linux 하드웨어 벤치마킹 역사