llm-d: Inferencia Distribuida Nativa de Kubernetes a Escala

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

llm-d: Inferencia Distribuida Nativa de Kubernetes a Escala

2025-05-21

llm-d es una pila de servicio de inferencia distribuida nativa de Kubernetes diseñada para servir modelos de lenguaje grandes de manera eficiente y económica. Aprovecha optimizaciones de inferencia distribuida de vanguardia, como enrutamiento con conocimiento de caché KV y servicio desagregado, integrado con las herramientas operacionales de Kubernetes en Inference Gateway (IGW). Construido sobre tecnologías abiertas como vLLM, Kubernetes e Inference Gateway, llm-d ofrece programación personalizable, servicio y caché desagregados, y planea escalamiento automático consciente del hardware, la carga de trabajo y el tráfico. Fácil de instalar mediante un gráfico Helm, los usuarios también pueden experimentar con componentes individuales.

(github.com)

Desarrollo inferencia distribuida

TitleBridge: Requisitos del Sistema y Política de Privacidad

DictionaryGames: Una relación de amor-odio con el aprendizaje de vocabulario