llm-d: Uma estrutura de inferência distribuída de LLM nativa do Kubernetes
llm-d é uma estrutura de inferência distribuída de modelos de linguagem grandes (LLM) nativa do Kubernetes, de alto desempenho, oferecendo um caminho simplificado para servir LLMs em escala. Ela possui o tempo mais rápido para valor e desempenho competitivo por dólar para a maioria dos modelos na maioria dos aceleradores de hardware. Utilizando otimizações de inferência distribuída de ponta, como roteamento com reconhecimento de cache KV e serviço desagregado, projetadas e integradas com ferramentas operacionais do Kubernetes no Inference Gateway (IGW), o llm-d permite que os usuários operacionalizem implantações de IA generativa com uma solução de serviço modular, de alto desempenho e ponta a ponta. Ao contrário das abordagens de escalonamento tradicionais, o llm-d é otimizado para as características exclusivas da inferência de LLM, como solicitações lentas, não uniformes e caras, alcançando desempenho superior. Por meio do roteamento com reconhecimento de cache, desagregação de tarefas e dimensionamento adaptável, o llm-d melhora significativamente a taxa de transferência e a eficiência, reduz a latência e suporta diversos requisitos de qualidade de serviço.