核手提箱 海洋云增白 可扩展服务 policy 颈挂空调 计算机硬件 极端主义 PostgreSQL AI工具 儿童读物 化学 即时消息 代码审查 反向工程 KDE 数据安全 效率工具 超级计算机 植物学 分析化学 插图 Three.js 泄露 大会 初创 Verizon 海水淡化 GPT-3 加速器项目 更多

RAGCache:用于检索增强生成的有效知识缓存 (arxiv.org)

这篇论文介绍了 RAGCache,一种专为检索增强生成(RAG)量身定制的多级动态缓存系统。RAGCache 旨在解决 RAG 系统中因知识注入导致的长序列生成问题,从而降低计算和内存成本。该系统通过在知识树中组织检索到的知识的中间状态,并将它们缓存到 GPU 和主机内存层次结构中来实现这一点。RAGCache 提出了一种替代策略,它了解 LLM 推理特征和 RAG 检索模式,并动态重叠检索和推理步骤,以最大程度地减少端到端延迟。实验结果表明,与 vLLM 集成 Faiss 相比,RAGCache 将首个令牌时间 (TTFT) 缩短了 4 倍,并将吞吐量提高了 2.1 倍。

评论已经关闭!