llm-d: Inferência Distribuída Nativa do Kubernetes em Escala
2025-05-21
llm-d é uma pilha de serviço de inferência distribuída nativa do Kubernetes, projetada para servir modelos de linguagem grandes de forma eficiente e econômica. Ele utiliza otimizações de inferência distribuída de última geração, como roteamento com reconhecimento de cache KV e serviço desagregado, integrado às ferramentas operacionais do Kubernetes no Inference Gateway (IGW). Construído em tecnologias abertas como vLLM, Kubernetes e Inference Gateway, o llm-d possui agendamento personalizável, serviço e cache desagregados e planeja escalonamento automático com reconhecimento de hardware, carga de trabalho e tráfego. Fácil de instalar via um gráfico Helm, os usuários também podem experimentar componentes individuais.
Desenvolvimento
inferência distribuída