llm-d: Kubernetes 기반 고성능 분산형 LLM 추론 프레임워크
2025-05-20
llm-d는 Kubernetes 기반의 고성능 분산형 대규모 언어 모델(LLM) 추론 프레임워크로, LLM을 대규모로 서비스하기 위한 효율적인 방법을 제공합니다. 대부분의 모델과 하드웨어 가속기에서 최고 속도의 가치 실현과 경쟁력 있는 가격 대비 성능을 제공합니다. KV 캐시 인식 라우팅 및 분산 서비스와 같은 최첨단 분산형 추론 최적화를 활용하고, Inference Gateway(IGW)의 Kubernetes 운영 도구와 공동 설계 및 통합하여 llm-d는 모듈화되고 고성능이며 엔드투엔드 서비스 솔루션을 통해 생성 AI 배포를 운영할 수 있도록 합니다. 기존의 확장 방식과 달리 llm-d는 느리고 불균일하며 비용이 많이 드는 요청과 같은 LLM 추론의 고유한 특성에 맞춰 최적화되어 뛰어난 성능을 제공합니다. 캐시 인식 라우팅, 작업 분산 및 적응형 확장을 통해 llm-d는 처리량과 효율성을 크게 향상시키고 대기 시간을 줄이며 다양한 서비스 품질 요구 사항을 지원합니다.
(llm-d.ai)
개발