将键值上下文量化引入 Ollama

2024-12-05

Ollama 现已支持键值上下文缓存量化,显著降低了 VRAM 使用量,使用户能够在现有硬件上运行更大参数的模型或使用更大的上下文窗口。文章介绍了键值上下文缓存量化的概念、优势(例如运行更大模型、扩展上下文大小、减少硬件利用率)以及如何启用该功能。文章还讨论了该技术的实现限制、性能和质量影响、兼容性、集成过程中的挑战以及一些关键术语的定义。提供了交互式 VRAM 估算器以帮助用户了解不同量化级别对 VRAM 使用量的影响。

阅读更多
未分类