NVIDIA Dynamo：高スループット、低レイテンシの生成AI推論フレームワーク

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-03-18

NVIDIAは、マルチノード分散環境で生成AIと推論モデルを提供するために設計された、高スループット、低レイテンシの推論フレームワークであるDynamoを発表しました。Dynamoは、推論エンジンに依存せず（TRT-LLM、vLLM、SGLangなどに対応）、分散されたプリフィルとデコードの推論、動的なGPUスケジューリング、LLM対応リクエストルーティング、高速データ転送、KVキャッシュオフロードなどの機能を備え、GPUスループットを最大化し、レイテンシを最小限に抑えます。パフォーマンスのためにRustで、拡張性のためにPythonで構築されており、完全にオープンソースです。