llm-d: Inferencia Distribuida Nativa de Kubernetes a Escala
llm-d es una pila de servicio de inferencia distribuida nativa de Kubernetes diseñada para servir modelos de lenguaje grandes de manera eficiente y económica. Aprovecha optimizaciones de inferencia distribuida de vanguardia, como enrutamiento con conocimiento de caché KV y servicio desagregado, integrado con las herramientas operacionales de Kubernetes en Inference Gateway (IGW). Construido sobre tecnologías abiertas como vLLM, Kubernetes e Inference Gateway, llm-d ofrece programación personalizable, servicio y caché desagregados, y planea escalamiento automático consciente del hardware, la carga de trabajo y el tráfico. Fácil de instalar mediante un gráfico Helm, los usuarios también pueden experimentar con componentes individuales.