KVSplit: Differenzierte KV-Cache-Quantisierung für Apple Silicon

2025-05-16
KVSplit: Differenzierte KV-Cache-Quantisierung für Apple Silicon

KVSplit optimiert LLMs auf Apple Silicon, indem es unterschiedliche Quantisierungspräzisionen für Keys und Values im KV-Cache des Aufmerksamkeitsmechanismus anwendet. Dies ermöglicht eine erhebliche Speicherreduzierung (bis zu 72%) bei minimalem Qualitätsverlust. Die K8V4-Konfiguration (8-Bit-Keys, 4-Bit-Values) bietet den besten Kompromiss: 59% Speicherreduktion bei nur 0,86% Perplexitätszunahme und schnellerer Inferenz. KVSplit enthält einen einfachen Installer und eine umfassende Benchmark-Suite zur Evaluierung verschiedener Konfigurationen, wodurch längere Kontextfenster und größere Modelle auf Apple-Geräten ermöglicht werden.

Entwicklung