일부 LLM은 클라우드에서는 빠르지만 로컬에서는 느린 이유는 무엇일까요?
2025-06-01
이 글에서는 DeepSeek-V3과 같은 Mixture-of-Experts(MoE) 모델을 포함한 대규모 언어 모델(LLM)이 클라우드에서는 대규모로 빠르고 저렴하게 제공될 수 있지만 로컬에서는 느리고 비용이 많이 드는 이유를 탐구합니다. 핵심은 배치 추론입니다. GPU는 대규모 행렬 곱셈에 능숙하며, 많은 사용자 요청을 배치 처리하면 처리량이 크게 향상되지만 지연 시간이 증가합니다. MoE 모델이나 많은 계층을 가진 모델은 파이프라인 버블이나 전문가 활용률 저하를 피하기 위해 배치 처리에 특히 의존합니다. 클라우드 공급업체는 배치 크기(수집 창)를 조정하여 처리량과 지연 시간의 균형을 맞추지만 로컬 실행은 일반적으로 단일 요청만 있으므로 GPU 사용률이 매우 낮습니다. OpenAI 등의 서비스의 높은 효율성은 더 우수한 모델 아키텍처, 정교한 추론 기법 또는 훨씬 더 강력한 GPU 리소스 때문일 수 있습니다.
AI
배치 추론