NVIDIA Dynamo: Framework de Inferência de Alta Taxa de Transferência e Baixa Latência para IA Generativa

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

NVIDIA Dynamo: Framework de Inferência de Alta Taxa de Transferência e Baixa Latência para IA Generativa

2025-03-18

A NVIDIA apresenta o Dynamo, um framework de inferência de alta taxa de transferência e baixa latência projetado para servir modelos de IA generativa e de raciocínio em ambientes distribuídos multinodo. O Dynamo é agnóstico em relação ao mecanismo de inferência (compatível com TRT-LLM, vLLM, SGLang e outros) e incorpora recursos como inferência de preenchimento e decodificação desagregada, escalonamento dinâmico de GPU, roteamento de solicitações com reconhecimento de LLM, transferência de dados acelerada e descarregamento de cache KV para maximizar a taxa de transferência da GPU e minimizar a latência. Construído em Rust para desempenho e Python para extensibilidade, o Dynamo é totalmente de código aberto.

(github.com)

IA Framework de Inferência

Git-Who: Descubra a autoria do código com facilidade

Qodo Gen 1.0: Codificação com IA Agencial usando LangGraph e MCP