Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

用于高效推理大型语言模型的层压缩KV缓存

2024-05-20

大型语言模型在实际应用部署中，面临着巨大的内存消耗瓶颈，其中，Transformer架构中注意力机制的键值（KV）缓存消耗了大量内存。本文提出一种新型层压缩KV缓存方法，仅计算和缓存少量层的KV，显著节省内存消耗并提升推理吞吐量。实验证明，该方法在大型语言模型上实现了高达26倍的吞吐量提升，并在语言建模和下游任务中取得了具有竞争力的性能。

(arxiv.org)

未分类 KV缓存推理效率