llm-d: Kubernetes-native verteilte Inferenz im großen Maßstab

2025-05-21
llm-d: Kubernetes-native verteilte Inferenz im großen Maßstab

llm-d ist ein Kubernetes-nativer Stack für verteiltes Inferencing, der darauf ausgelegt ist, große Sprachmodelle effizient und kostengünstig zu bedienen. Er nutzt modernste Optimierungen für verteiltes Inferencing, wie z. B. KV-Cache-aware Routing und disaggregiertes Serving, integriert mit Kubernetes-Betriebswerkzeugen in Inference Gateway (IGW). Basierend auf Open-Source-Technologien wie vLLM, Kubernetes und Inference Gateway bietet llm-d anpassbares Scheduling, disaggregiertes Serving und Caching und plant eine hardware-, workload- und traffic-aware Autoskalierung. Einfach installierbar über ein Helm-Chart, können Benutzer auch mit einzelnen Komponenten experimentieren.