llm-d: Kubernetes 기반 분산 추론 플랫폼

2025-05-21

llm-d는 대규모 언어 모델을 효율적이고 경제적으로 제공하도록 설계된 Kubernetes 기반 분산 추론 서비스 스택입니다. KV 캐시 인식 라우팅 및 분산 서빙과 같은 최첨단 분산 추론 최적화 기술을 활용하며, Inference Gateway(IGW)의 Kubernetes 운영 도구와 통합됩니다. vLLM, Kubernetes, Inference Gateway와 같은 오픈소스 기술을 기반으로 구축된 llm-d는 사용자 정의 가능한 스케줄링, 분산 서빙 및 캐싱 기능을 제공하며, 하드웨어, 워크로드 및 트래픽을 고려한 자동 스케일링을 계획하고 있습니다. Helm 차트를 통해 간편하게 설치할 수 있으며, 개별 구성 요소를 사용하여 실험할 수도 있습니다.

(github.com)

개발 분산 추론

TitleBridge: 시스템 요구 사항 및 개인 정보 보호 정책

DictionaryGames: 영어 어휘 학습 앱과의 사랑과 증오