NVIDIA Dynamo: Framework de Inferência de Alta Taxa de Transferência e Baixa Latência para IA Generativa
2025-03-18
A NVIDIA apresenta o Dynamo, um framework de inferência de alta taxa de transferência e baixa latência projetado para servir modelos de IA generativa e de raciocínio em ambientes distribuídos multinodo. O Dynamo é agnóstico em relação ao mecanismo de inferência (compatível com TRT-LLM, vLLM, SGLang e outros) e incorpora recursos como inferência de preenchimento e decodificação desagregada, escalonamento dinâmico de GPU, roteamento de solicitações com reconhecimento de LLM, transferência de dados acelerada e descarregamento de cache KV para maximizar a taxa de transferência da GPU e minimizar a latência. Construído em Rust para desempenho e Python para extensibilidade, o Dynamo é totalmente de código aberto.