Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

llm-d: Inferência Distribuída Nativa do Kubernetes em Escala

2025-05-21

llm-d é uma pilha de serviço de inferência distribuída nativa do Kubernetes, projetada para servir modelos de linguagem grandes de forma eficiente e econômica. Ele utiliza otimizações de inferência distribuída de última geração, como roteamento com reconhecimento de cache KV e serviço desagregado, integrado às ferramentas operacionais do Kubernetes no Inference Gateway (IGW). Construído em tecnologias abertas como vLLM, Kubernetes e Inference Gateway, o llm-d possui agendamento personalizável, serviço e cache desagregados e planeja escalonamento automático com reconhecimento de hardware, carga de trabalho e tráfego. Fácil de instalar via um gráfico Helm, os usuários também podem experimentar componentes individuais.

(github.com)

Desenvolvimento inferência distribuída