llm-d:Kubernetesネイティブ分散推論プラットフォーム

2025-05-21
llm-d:Kubernetesネイティブ分散推論プラットフォーム

llm-dは、大規模言語モデルを効率的かつ経済的に提供するために設計された、Kubernetesネイティブの分散推論サービススタックです。KVキャッシュ対応ルーティングや分散型サービングなどの最先端の分散推論最適化技術を活用し、Inference Gateway(IGW)のKubernetes運用ツールと統合されています。vLLM、Kubernetes、Inference Gatewayなどのオープンソース技術を基盤として構築されたllm-dは、カスタマイズ可能なスケジューリング、分散型サービングとキャッシングを備え、ハードウェア、ワークロード、トラフィックを考慮した自動スケーリングを計画しています。Helmチャートを使用して簡単にインストールでき、個々のコンポーネントを使用して実験することもできます。

開発 分散推論