KVSplit: Quantização Diferenciada de Cache KV para Apple Silicon

2025-05-16
KVSplit: Quantização Diferenciada de Cache KV para Apple Silicon

O KVSplit otimiza LLMs em Apple Silicon aplicando precisão de quantização diferente para chaves em comparação com valores no cache KV do mecanismo de atenção. Isso permite uma redução significativa de memória (até 72%) com perda mínima de qualidade. A configuração K8V4 (chaves de 8 bits, valores de 4 bits) oferece o melhor equilíbrio, alcançando uma redução de memória de 59% com apenas um aumento de perplexidade de 0,86% e inferência mais rápida. O KVSplit inclui um instalador fácil e um conjunto abrangente de testes de referência para avaliar diferentes configurações, permitindo janelas de contexto mais longas e modelos maiores em dispositivos Apple.

Desenvolvimento