KVSplit: Apple Silicon을 위한 차별화된 KV 캐시 양자화
2025-05-16
KVSplit은 어텐션 메커니즘의 KV 캐시에서 키와 값에 다른 양자화 정밀도를 적용하여 Apple Silicon에서 LLM을 최적화합니다. 이를 통해 최소한의 품질 저하로 최대 72%의 메모리 사용량 감소가 가능합니다. K8V4 구성(키 8비트, 값 4비트)은 메모리 감소 59%, Perplexity 증가는 불과 0.86%, 추론 속도 향상이라는 최적의 균형을 제공합니다. KVSplit에는 사용하기 쉬운 설치 프로그램과 포괄적인 벤치마크 모음이 포함되어 있어 다양한 구성을 평가하여 Apple 기기에서 더 긴 컨텍스트 창과 대규모 모델을 사용할 수 있습니다.
개발