KVSplit: Apple Silicon向け差別化KVキャッシュ量子化
2025-05-16
KVSplitは、Apple Silicon上でLLMを最適化するために、アテンションメカニズムのKVキャッシュにおいて、キーと値に異なる量子化精度を適用します。これにより、最小限の品質低下で最大72%のメモリ使用量削減が可能になります。K8V4構成(キー8ビット、値4ビット)は、メモリ削減59%、Perplexity増加わずか0.86%、推論速度向上という最適なバランスを提供します。KVSplitには、使いやすいインストーラーと包括的なベンチマークスイートが含まれており、様々な構成を評価することで、Appleデバイス上でより長いコンテキストウィンドウと大規模なモデルを使用できます。
開発