llm-d:Kubernetes原生分布式推理平台

2025-05-21
llm-d:Kubernetes原生分布式推理平台

llm-d是一个基于Kubernetes的原生分布式推理服务栈,旨在高效、经济地服务大型语言模型。它利用最新的分布式推理优化技术,例如KV缓存感知路由和解耦服务,并与Inference Gateway(IGW)中的Kubernetes操作工具集成。llm-d构建于vLLM、Kubernetes和Inference Gateway等开源技术之上,具有可定制的调度、解耦服务和缓存等特性,并计划实现基于硬件、工作负载和流量的自动扩展。用户可以通过Helm chart轻松安装,并可单独使用其组件进行实验。