Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

NVIDIA Dynamo : Framework d'inférence haute performance et faible latence pour l'IA générative

2025-03-18

NVIDIA présente Dynamo, un framework d'inférence haute performance et faible latence conçu pour servir les modèles d'IA générative et de raisonnement dans des environnements distribués multinœuds. Dynamo est agnostique du moteur d'inférence (compatible avec TRT-LLM, vLLM, SGLang et autres), et intègre des fonctionnalités telles que l'inférence de préremplissage et de décodage désagrégée, l'ordonnancement dynamique du GPU, le routage des requêtes conscient des LLM, le transfert de données accéléré et la décharge du cache KV pour maximiser le débit du GPU et minimiser la latence. Développé en Rust pour les performances et en Python pour l'extensibilité, Dynamo est entièrement open source.

(github.com)

IA Framework d'inférence