NVIDIA Dynamo : Framework d'inférence haute performance et faible latence pour l'IA générative

2025-03-18
NVIDIA Dynamo : Framework d'inférence haute performance et faible latence pour l'IA générative

NVIDIA présente Dynamo, un framework d'inférence haute performance et faible latence conçu pour servir les modèles d'IA générative et de raisonnement dans des environnements distribués multinœuds. Dynamo est agnostique du moteur d'inférence (compatible avec TRT-LLM, vLLM, SGLang et autres), et intègre des fonctionnalités telles que l'inférence de préremplissage et de décodage désagrégée, l'ordonnancement dynamique du GPU, le routage des requêtes conscient des LLM, le transfert de données accéléré et la décharge du cache KV pour maximiser le débit du GPU et minimiser la latence. Développé en Rust pour les performances et en Python pour l'extensibilité, Dynamo est entièrement open source.