llm-d: Ein Kubernetes-natives, verteiltes LLM-Inferenz-Framework

2025-05-20

llm-d ist ein Kubernetes-natives, hochperformantes, verteiltes Inferenz-Framework für große Sprachmodelle (LLM), das einen optimierten Weg für den groß angelegten Betrieb von LLMs bietet. Es zeichnet sich durch schnellste Time-to-Value und wettbewerbsfähige Leistung pro Dollar für die meisten Modelle auf den meisten Hardware-Beschleunigern aus. Durch die Nutzung modernster verteilter Inferenz-Optimierungen wie KV-Cache-aware Routing und disaggregierten Serving, die gemeinsam mit Kubernetes-Betriebswerkzeugen im Inference Gateway (IGW) entwickelt und integriert wurden, ermöglicht llm-d Benutzern den Betrieb von generativer KI-Implementierungen mit einer modularen, hochperformanten End-to-End-Servicelösung. Im Gegensatz zu traditionellen Skalierungsansätzen ist llm-d für die einzigartigen Eigenschaften der LLM-Inferenz optimiert, wie z. B. langsame, ungleichmäßige, teure Anfragen, und erzielt so überragende Leistung. Durch Cache-aware Routing, Aufgabenzerlegung und adaptive Skalierung verbessert llm-d den Durchsatz und die Effizienz erheblich, reduziert die Latenz und unterstützt verschiedene Anforderungen an die Servicequalität.

Entwicklung LLM Inferenz