Redis 加速大语言模型：LMCache 带来 3-10 倍提速

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

Redis 加速大语言模型：LMCache 带来 3-10 倍提速

2025-06-28

LMCache 是一款用于大语言模型 (LLM) 的缓存引擎扩展，通过在 GPU、CPU DRAM 和本地磁盘等多个位置存储可重用文本的键值对缓存，显著减少了尾部延迟并提高了吞吐量，尤其在长上下文场景下效果更佳。它能够重用任何被重用的文本的键值对缓存（不一定是前缀），从而节省宝贵的 GPU 运算周期并减少用户响应延迟。结合 vLLM 使用，LMCache 在多轮问答和 RAG 等 LLM 应用场景中实现了 3-10 倍的延迟节省和 GPU 周期减少。

(github.com)

东京大学本科生自制CPU运行操作系统Xv6的传奇

你的网站如何秘密识别你是躺在床上还是在公交车上浏览？