NVIDIA Dynamo:高吞吐量低延迟的生成式AI推理框架

2025-03-18
NVIDIA Dynamo:高吞吐量低延迟的生成式AI推理框架

NVIDIA发布了Dynamo,一个用于在多节点分布式环境中为生成式AI和推理模型提供服务的、高吞吐量低延迟推理框架。Dynamo支持多种推理引擎(如TRT-LLM、vLLM、SGLang等),并具备预填充和解码推理解耦、动态GPU调度、LLM感知请求路由、加速数据传输和KV缓存卸载等特性,以最大化GPU吞吐量并降低延迟。该框架使用Rust编写以提高性能,并使用Python编写以增强可扩展性,完全开源。

AI