KVSplit: 苹果硅芯片上的差异化KV缓存量化
2025-05-16
KVSplit 是一种针对苹果硅芯片优化的工具,通过对大型语言模型 (LLM) 的注意力机制中的键值缓存 (KV cache) 应用不同的量化精度(键和值分别量化),从而减少内存使用并提高推理速度。研究表明,键比值对量化更敏感,K8V4 配置(8 位键,4 位值)在内存节省 (59%) 和精度损失 (0.86%) 之间取得了最佳平衡,并能提升推理速度。KVSplit 提供易于使用的安装程序和基准测试套件,方便用户评估和应用不同的量化配置,从而在苹果设备上运行更长上下文窗口和更大型的 LLM。
开发