RAGCache:用于检索增强生成的有效知识缓存

2024-04-30

这篇论文介绍了 RAGCache,一种专为检索增强生成(RAG)量身定制的多级动态缓存系统。RAGCache 旨在解决 RAG 系统中因知识注入导致的长序列生成问题,从而降低计算和内存成本。该系统通过在知识树中组织检索到的知识的中间状态,并将它们缓存到 GPU 和主机内存层次结构中来实现这一点。RAGCache 提出了一种替代策略,它了解 LLM 推理特征和 RAG 检索模式,并动态重叠检索和推理步骤,以最大程度地减少端到端延迟。实验结果表明,与 vLLM 集成 Faiss 相比,RAGCache 将首个令牌时间 (TTFT) 缩短了 4 倍,并将吞吐量提高了 2.1 倍。

47