NVIDIA Dynamo: Framework de Inferencia de Alto Rendimiento y Baja Latencia para IA Generativa

2025-03-18
NVIDIA Dynamo: Framework de Inferencia de Alto Rendimiento y Baja Latencia para IA Generativa

NVIDIA presenta Dynamo, un framework de inferencia de alto rendimiento y baja latencia diseñado para servir modelos de IA generativa y de razonamiento en entornos distribuidos multinodo. Dynamo es agnóstico con respecto al motor de inferencia (compatible con TRT-LLM, vLLM, SGLang y otros), e incorpora características como inferencia de prellenado y decodificación desagregada, programación dinámica de GPU, enrutamiento de solicitudes consciente de LLM, transferencia de datos acelerada y descarga de caché KV para maximizar el rendimiento de la GPU y minimizar la latencia. Construido en Rust para el rendimiento y en Python para la extensibilidad, Dynamo es completamente de código abierto.