SepLLM:通过压缩无意义标记加速大型语言模型推理

2025-03-06
SepLLM:通过压缩无意义标记加速大型语言模型推理

大型语言模型(LLM)因其巨大的计算需求而备受挑战。研究人员发现,某些无意义的特殊标记对注意力分数的贡献巨大。基于此,他们提出了SepLLM框架,通过压缩这些标记之间的片段并丢弃冗余标记来加速推理。实验结果表明,SepLLM在GSM8K-CoT基准测试中将KV缓存减少了50%以上,同时性能损失可以忽略不计。在流式设置中,SepLLM能够处理超过400万个标记的语言建模。