llm-d : Un framework d'inférence distribuée pour LLM natif de Kubernetes

2025-05-20

llm-d est un framework d'inférence distribuée pour les grands modèles de langage (LLM) natif de Kubernetes, haute performance, offrant une voie simplifiée pour servir les LLM à grande échelle. Il se caractérise par un temps de valeur le plus rapide et des performances compétitives par dollar pour la plupart des modèles sur la plupart des accélérateurs matériels. Utilisant des optimisations d'inférence distribuée de pointe, telles que le routage avec prise en compte du cache KV et le service désagrégé, co-conçu et intégré aux outils opérationnels Kubernetes dans Inference Gateway (IGW), llm-d permet aux utilisateurs d'opérer des déploiements d'IA générative avec une solution de service modulaire, haute performance et de bout en bout. Contrairement aux approches d'échelle traditionnelles, llm-d est optimisé pour les caractéristiques uniques de l'inférence LLM, telles que les requêtes lentes, non uniformes et coûteuses, obtenant des performances supérieures. Grâce au routage prenant en compte le cache, à la désagrégation des tâches et à l'échelle adaptative, llm-d améliore considérablement le débit et l'efficacité, réduit la latence et prend en charge divers exigences de qualité de service.

Lire plus
Développement Infrence LLM