なぜ一部のLLMはクラウド上では高速だが、ローカルでは遅いのか？

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-06-01

この記事では、DeepSeek-V3のようなMixture-of-Experts（MoE）モデルを含む大規模言語モデル（LLM）が、クラウド上では大規模に高速かつ安価に提供できるのに、ローカルでは遅く高価になる理由を探っています。鍵となるのはバッチ推論です。GPUは巨大な行列乗算を得意としており、多くのユーザーリクエストをバッチ処理することでスループットが大幅に向上しますが、レイテンシが増加します。MoEモデルや多くのレイヤーを持つモデルは、特にパイプラインのバブルや専門家の利用率の低さを避けるためにバッチ処理に依存しています。クラウドプロバイダーは、バッチサイズ（収集ウィンドウ）を調整することでスループットとレイテンシのバランスを取っていますが、ローカル実行は通常単一のリクエストしかないため、GPUの利用率が非常に低くなります。OpenAIなどのサービスの高効率性は、より優れたモデルアーキテクチャ、巧妙な推論テクニック、またははるかに強力なGPUリソースによるものかもしれません。