KVSplit: Quantização Diferenciada de Cache KV para Apple Silicon

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

KVSplit: Quantização Diferenciada de Cache KV para Apple Silicon

2025-05-16

O KVSplit otimiza LLMs em Apple Silicon aplicando precisão de quantização diferente para chaves em comparação com valores no cache KV do mecanismo de atenção. Isso permite uma redução significativa de memória (até 72%) com perda mínima de qualidade. A configuração K8V4 (chaves de 8 bits, valores de 4 bits) oferece o melhor equilíbrio, alcançando uma redução de memória de 59% com apenas um aumento de perplexidade de 0,86% e inferência mais rápida. O KVSplit inclui um instalador fácil e um conjunto abrangente de testes de referência para avaliar diferentes configurações, permitindo janelas de contexto mais longas e modelos maiores em dispositivos Apple.

(github.com)

Desenvolvimento

Humanismo Renascentista e LLMs: Um Diálogo Transtemporal

FCC aprova aquisição da Frontier pela Verizon por US$ 20 bilhões após abandono de políticas de DEI