RedisによるLLM高速化:LMCacheで3~10倍の高速化を実現
2025-06-28
LMCacheは、特にロングコンテキストのシナリオにおいて、テールレイテンシを大幅に削減し、スループットを向上させることを目的としたLLMサービングエンジンの拡張機能です。GPU、CPU DRAM、ローカルディスクなど様々な場所に再利用可能なテキストのKVペアをキャッシュすることで、LMCacheは任意のサービングインスタンスで再利用されるテキスト(プレフィックスだけではありません)のキャッシュを再利用します。これにより、貴重なGPUサイクルを節約し、ユーザーのレスポンスタイムを最小限に抑えます。vLLMと組み合わせることで、LMCacheはマルチラウンドQAやRAGなど、多くのLLMユースケースにおいて、レイテンシとGPUサイクルを3~10倍削減します。事前構築済みのvLLM Dockerイメージで試してみてください!
AI