llm-d: Uma estrutura de inferência distribuída de LLM nativa do Kubernetes

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-05-20

llm-d é uma estrutura de inferência distribuída de modelos de linguagem grandes (LLM) nativa do Kubernetes, de alto desempenho, oferecendo um caminho simplificado para servir LLMs em escala. Ela possui o tempo mais rápido para valor e desempenho competitivo por dólar para a maioria dos modelos na maioria dos aceleradores de hardware. Utilizando otimizações de inferência distribuída de ponta, como roteamento com reconhecimento de cache KV e serviço desagregado, projetadas e integradas com ferramentas operacionais do Kubernetes no Inference Gateway (IGW), o llm-d permite que os usuários operacionalizem implantações de IA generativa com uma solução de serviço modular, de alto desempenho e ponta a ponta. Ao contrário das abordagens de escalonamento tradicionais, o llm-d é otimizado para as características exclusivas da inferência de LLM, como solicitações lentas, não uniformes e caras, alcançando desempenho superior. Por meio do roteamento com reconhecimento de cache, desagregação de tarefas e dimensionamento adaptável, o llm-d melhora significativamente a taxa de transferência e a eficiência, reduz a latência e suporta diversos requisitos de qualidade de serviço.