llm-d: Kubernetes-native verteilte Inferenz im großen Maßstab

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

llm-d: Kubernetes-native verteilte Inferenz im großen Maßstab

2025-05-21

llm-d ist ein Kubernetes-nativer Stack für verteiltes Inferencing, der darauf ausgelegt ist, große Sprachmodelle effizient und kostengünstig zu bedienen. Er nutzt modernste Optimierungen für verteiltes Inferencing, wie z. B. KV-Cache-aware Routing und disaggregiertes Serving, integriert mit Kubernetes-Betriebswerkzeugen in Inference Gateway (IGW). Basierend auf Open-Source-Technologien wie vLLM, Kubernetes und Inference Gateway bietet llm-d anpassbares Scheduling, disaggregiertes Serving und Caching und plant eine hardware-, workload- und traffic-aware Autoskalierung. Einfach installierbar über ein Helm-Chart, können Benutzer auch mit einzelnen Komponenten experimentieren.

(github.com)

Entwicklung verteiltes Inferencing

TitleBridge: Systemanforderungen und Datenschutzrichtlinie

DictionaryGames: Eine Hassliebe zum Vokabeln lernen