KVSplit: Cuantificación de caché KV diferenciada para Apple Silicon
2025-05-16
KVSplit optimiza los LLMs en Apple Silicon aplicando una precisión de cuantificación diferente a las claves en comparación con los valores en la caché KV del mecanismo de atención. Esto permite una reducción significativa de la memoria (hasta un 72%) con una pérdida mínima de calidad. La configuración K8V4 (claves de 8 bits, valores de 4 bits) ofrece el mejor equilibrio, logrando una reducción de memoria del 59% con solo un aumento de perplexidad del 0,86% e inferencia más rápida. KVSplit incluye un instalador sencillo y un conjunto completo de pruebas de referencia para evaluar diferentes configuraciones, permitiendo ventanas de contexto más largas y modelos más grandes en dispositivos Apple.
Desarrollo