なぜ一部のLLMはクラウド上では高速だが、ローカルでは遅いのか?
2025-06-01
この記事では、DeepSeek-V3のようなMixture-of-Experts(MoE)モデルを含む大規模言語モデル(LLM)が、クラウド上では大規模に高速かつ安価に提供できるのに、ローカルでは遅く高価になる理由を探っています。鍵となるのはバッチ推論です。GPUは巨大な行列乗算を得意としており、多くのユーザーリクエストをバッチ処理することでスループットが大幅に向上しますが、レイテンシが増加します。MoEモデルや多くのレイヤーを持つモデルは、特にパイプラインのバブルや専門家の利用率の低さを避けるためにバッチ処理に依存しています。クラウドプロバイダーは、バッチサイズ(収集ウィンドウ)を調整することでスループットとレイテンシのバランスを取っていますが、ローカル実行は通常単一のリクエストしかないため、GPUの利用率が非常に低くなります。OpenAIなどのサービスの高効率性は、より優れたモデルアーキテクチャ、巧妙な推論テクニック、またははるかに強力なGPUリソースによるものかもしれません。
AI
バッチ推論