llm-d:Kubernetesネイティブの高性能分散型LLM推論フレームワーク

2025-05-20

llm-dは、Kubernetesネイティブの高性能分散型大規模言語モデル(LLM)推論フレームワークであり、LLMを大規模に提供するための効率的な方法を提供します。ほとんどのモデルとハードウェアアクセラレータにおいて、最速の価値実現と競争力のある価格性能比を実現します。KVキャッシュ認識ルーティングや分散型サービスといった最先端の分散型推論最適化を活用し、Inference Gateway(IGW)のKubernetes運用ツールと共同設計・統合することで、llm-dは、モジュール化され、高性能でエンドツーエンドのサービスソリューションによって、生成AIの展開を運用可能にします。従来のスケーリング手法とは異なり、llm-dは、低速で不均一、高コストなリクエストといったLLM推論の固有の特徴に合わせて最適化されており、優れた性能を実現します。キャッシュ認識ルーティング、タスクの分散、適応型スケーリングにより、llm-dはスループットと効率性を大幅に向上させ、レイテンシを削減し、多様なサービス品質要件をサポートします。

開発