NVIDIA Dynamo: Hochdurchsatz-Inferenzframework mit niedriger Latenz für generative KI

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

NVIDIA Dynamo: Hochdurchsatz-Inferenzframework mit niedriger Latenz für generative KI

2025-03-18

NVIDIA stellt Dynamo vor, ein Hochdurchsatz-Inferenzframework mit niedriger Latenz für das Bereitstellen von generativen KI- und Reasonierungsmodellen in verteilten Umgebungen mit mehreren Knoten. Dynamo ist unabhängig von der Inferenz-Engine (unterstützt TRT-LLM, vLLM, SGLang und andere) und bietet Funktionen wie entkoppelte Prefill- und Decode-Inferenz, dynamische GPU-Scheduling, LLM-aware Request-Routing, beschleunigte Datenübertragung und KV-Cache-Offloading, um den GPU-Durchsatz zu maximieren und die Latenz zu minimieren. In Rust für Performance und in Python für Erweiterbarkeit geschrieben, ist Dynamo vollständig Open Source.

(github.com)

KI Inferenzframework

Git-Who: Code-Autorenschaft einfach herausfinden

Qodo Gen 1.0: Agentenbasierte KI-Codierung mit LangGraph und MCP