Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

RAGCache：用于检索增强生成的有效知识缓存

2024-04-30

这篇论文介绍了 RAGCache，一种专为检索增强生成（RAG）量身定制的多级动态缓存系统。RAGCache 旨在解决 RAG 系统中因知识注入导致的长序列生成问题，从而降低计算和内存成本。该系统通过在知识树中组织检索到的知识的中间状态，并将它们缓存到 GPU 和主机内存层次结构中来实现这一点。RAGCache 提出了一种替代策略，它了解 LLM 推理特征和 RAG 检索模式，并动态重叠检索和推理步骤，以最大程度地减少端到端延迟。实验结果表明，与 vLLM 集成 Faiss 相比，RAGCache 将首个令牌时间 (TTFT) 缩短了 4 倍，并将吞吐量提高了 2.1 倍。

(arxiv.org)

未分类概率推理样本有效性