KVSplit : Quantification différenciée du cache KV pour Apple Silicon

2025-05-16
KVSplit : Quantification différenciée du cache KV pour Apple Silicon

KVSplit optimise les LLMs sur Apple Silicon en appliquant une précision de quantification différente aux clés par rapport aux valeurs dans le cache KV du mécanisme d'attention. Cela permet une réduction significative de la mémoire (jusqu'à 72%) avec une perte de qualité minimale. La configuration K8V4 (clés 8 bits, valeurs 4 bits) offre le meilleur compromis, atteignant une réduction de mémoire de 59% avec seulement une augmentation de perplexité de 0,86% et une inférence plus rapide. KVSplit inclut un installateur simple et une suite complète de tests de référence pour évaluer différentes configurations, permettant des fenêtres de contexte plus longues et des modèles plus grands sur les appareils Apple.