NVIDIA Dynamo: Hochdurchsatz-Inferenzframework mit niedriger Latenz für generative KI
2025-03-18
NVIDIA stellt Dynamo vor, ein Hochdurchsatz-Inferenzframework mit niedriger Latenz für das Bereitstellen von generativen KI- und Reasonierungsmodellen in verteilten Umgebungen mit mehreren Knoten. Dynamo ist unabhängig von der Inferenz-Engine (unterstützt TRT-LLM, vLLM, SGLang und andere) und bietet Funktionen wie entkoppelte Prefill- und Decode-Inferenz, dynamische GPU-Scheduling, LLM-aware Request-Routing, beschleunigte Datenübertragung und KV-Cache-Offloading, um den GPU-Durchsatz zu maximieren und die Latenz zu minimieren. In Rust für Performance und in Python für Erweiterbarkeit geschrieben, ist Dynamo vollständig Open Source.