用于高效推理大型语言模型的层压缩KV缓存

2024-05-20

大型语言模型在实际应用部署中,面临着巨大的内存消耗瓶颈,其中,Transformer架构中注意力机制的键值(KV)缓存消耗了大量内存。本文提出一种新型层压缩KV缓存方法,仅计算和缓存少量层的KV,显著节省内存消耗并提升推理吞吐量。实验证明,该方法在大型语言模型上实现了高达26倍的吞吐量提升,并在语言建模和下游任务中取得了具有竞争力的性能。

85