llm-d：Kubernetesネイティブ分散推論プラットフォーム

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-05-21

llm-dは、大規模言語モデルを効率的かつ経済的に提供するために設計された、Kubernetesネイティブの分散推論サービススタックです。KVキャッシュ対応ルーティングや分散型サービングなどの最先端の分散推論最適化技術を活用し、Inference Gateway（IGW）のKubernetes運用ツールと統合されています。vLLM、Kubernetes、Inference Gatewayなどのオープンソース技術を基盤として構築されたllm-dは、カスタマイズ可能なスケジューリング、分散型サービングとキャッシングを備え、ハードウェア、ワークロード、トラフィックを考慮した自動スケーリングを計画しています。Helmチャートを使用して簡単にインストールでき、個々のコンポーネントを使用して実験することもできます。