RAGCache：用于检索增强生成的有效知识缓存

RAGCache：用于检索增强生成的有效知识缓存 (arxiv.org)

原文: [2404.12457] RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation

这篇论文介绍了 RAGCache，一种专为检索增强生成（RAG）量身定制的多级动态缓存系统。RAGCache 旨在解决 RAG 系统中因知识注入导致的长序列生成问题，从而降低计算和内存成本。该系统通过在知识树中组织检索到的知识的中间状态，并将它们缓存到 GPU 和主机内存层次结构中来实现这一点。RAGCache 提出了一种替代策略，它了解 LLM 推理特征和 RAG 检索模式，并动态重叠检索和推理步骤，以最大程度地减少端到端延迟。实验结果表明，与 vLLM 集成 Faiss 相比，RAGCache 将首个令牌时间 (TTFT) 缩短了 4 倍，并将吞吐量提高了 2.1 倍。

概率推理

样本有效性

上一篇: Android放弃RISC-V内核

下一篇: 中国龙芯能否赶超西方设计？也许不会

评论已经关闭！

返回首页