NVIDIA Dynamo：高吞吐量低延迟的生成式AI推理框架

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

NVIDIA Dynamo：高吞吐量低延迟的生成式AI推理框架

2025-03-18

NVIDIA发布了Dynamo，一个用于在多节点分布式环境中为生成式AI和推理模型提供服务的、高吞吐量低延迟推理框架。Dynamo支持多种推理引擎（如TRT-LLM、vLLM、SGLang等），并具备预填充和解码推理解耦、动态GPU调度、LLM感知请求路由、加速数据传输和KV缓存卸载等特性，以最大化GPU吞吐量并降低延迟。该框架使用Rust编写以提高性能，并使用Python编写以增强可扩展性，完全开源。

(github.com)

Git-Who：追踪代码贡献者的神器

Qodo Gen 1.0: 基于LangGraph和MCP的代理式AI编码