llm-d : Inférence distribuée native Kubernetes à grande échelle

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-05-21

llm-d est une pile de service d'inférence distribuée native de Kubernetes conçue pour servir les grands modèles de langage de manière efficace et économique. Elle tire parti des optimisations d'inférence distribuée de pointe, telles que le routage prenant en compte le cache KV et le service désagrégé, intégrés aux outils opérationnels Kubernetes dans Inference Gateway (IGW). Construit sur des technologies ouvertes telles que vLLM, Kubernetes et Inference Gateway, llm-d offre une planification personnalisable, un service et une mise en cache désagrégés, et prévoit un scaling automatique tenant compte du matériel, de la charge de travail et du trafic. Facile à installer via un graphique Helm, les utilisateurs peuvent également expérimenter avec des composants individuels.