llm-d : Inférence distribuée native Kubernetes à grande échelle

2025-05-21
llm-d : Inférence distribuée native Kubernetes à grande échelle

llm-d est une pile de service d'inférence distribuée native de Kubernetes conçue pour servir les grands modèles de langage de manière efficace et économique. Elle tire parti des optimisations d'inférence distribuée de pointe, telles que le routage prenant en compte le cache KV et le service désagrégé, intégrés aux outils opérationnels Kubernetes dans Inference Gateway (IGW). Construit sur des technologies ouvertes telles que vLLM, Kubernetes et Inference Gateway, llm-d offre une planification personnalisable, un service et une mise en cache désagrégés, et prévoit un scaling automatique tenant compte du matériel, de la charge de travail et du trafic. Facile à installer via un graphique Helm, les utilisateurs peuvent également expérimenter avec des composants individuels.

Développement inférence distribuée