NVIDIA Dynamo:高スループット、低レイテンシの生成AI推論フレームワーク

2025-03-18
NVIDIA Dynamo:高スループット、低レイテンシの生成AI推論フレームワーク

NVIDIAは、マルチノード分散環境で生成AIと推論モデルを提供するために設計された、高スループット、低レイテンシの推論フレームワークであるDynamoを発表しました。Dynamoは、推論エンジンに依存せず(TRT-LLM、vLLM、SGLangなどに対応)、分散されたプリフィルとデコードの推論、動的なGPUスケジューリング、LLM対応リクエストルーティング、高速データ転送、KVキャッシュオフロードなどの機能を備え、GPUスループットを最大化し、レイテンシを最小限に抑えます。パフォーマンスのためにRustで、拡張性のためにPythonで構築されており、完全にオープンソースです。