Redis 加速大语言模型:LMCache 带来 3-10 倍提速
2025-06-28
LMCache 是一款用于大语言模型 (LLM) 的缓存引擎扩展,通过在 GPU、CPU DRAM 和本地磁盘等多个位置存储可重用文本的键值对缓存,显著减少了尾部延迟并提高了吞吐量,尤其在长上下文场景下效果更佳。它能够重用任何被重用的文本的键值对缓存(不一定是前缀),从而节省宝贵的 GPU 运算周期并减少用户响应延迟。结合 vLLM 使用,LMCache 在多轮问答和 RAG 等 LLM 应用场景中实现了 3-10 倍的延迟节省和 GPU 周期减少。
AI