KVSplit: قياس كمّي مُفاضل لـ KV Cache لأجهزة Apple Silicon

2025-05-16
KVSplit: قياس كمّي مُفاضل لـ KV Cache لأجهزة Apple Silicon

يُحسّن KVSplit من أداء نماذج اللغات الكبيرة (LLMs) على أجهزة Apple Silicon من خلال تطبيق دقة قياس كمّي مُختلفة للمفاتيح مقابل القيم في ذاكرة التخزين المؤقت KV لآلية الانتباه. يسمح هذا الأمر بتقليل كبير في استخدام الذاكرة (حتى 72٪) مع الحد الأدنى من فقدان الجودة. توفر تكوين K8V4 (مفاتيح 8 بت، قيم 4 بت) أفضل توازن، حيث يحقق تقليلًا في استخدام الذاكرة بنسبة 59٪ مع زيادة في تعقيد perplexity بنسبة 0.86٪ فقط واستنتاج أسرع. يتضمن KVSplit برنامج تثبيت سهل الاستخدام ومجموعة شاملة لاختبارات المقارنة المعيارية لتقييم التكوينات المختلفة، مما يسمح باستخدام نوافذ سياقية أطول ونماذج أكبر على أجهزة Apple.

التطوير