llm-d: Kubernetes 기반 분산 추론 플랫폼

2025-05-21
llm-d: Kubernetes 기반 분산 추론 플랫폼

llm-d는 대규모 언어 모델을 효율적이고 경제적으로 제공하도록 설계된 Kubernetes 기반 분산 추론 서비스 스택입니다. KV 캐시 인식 라우팅 및 분산 서빙과 같은 최첨단 분산 추론 최적화 기술을 활용하며, Inference Gateway(IGW)의 Kubernetes 운영 도구와 통합됩니다. vLLM, Kubernetes, Inference Gateway와 같은 오픈소스 기술을 기반으로 구축된 llm-d는 사용자 정의 가능한 스케줄링, 분산 서빙 및 캐싱 기능을 제공하며, 하드웨어, 워크로드 및 트래픽을 고려한 자동 스케일링을 계획하고 있습니다. Helm 차트를 통해 간편하게 설치할 수 있으며, 개별 구성 요소를 사용하여 실험할 수도 있습니다.

개발 분산 추론