حيل ذاكرة التخزين المؤقت KV لنماذج اللغات الأسرع
2025-01-28
إن بطء نماذج اللغات الكبيرة (LLM) في توليد النصوص ينبع من التعقيد الحسابي للاهتمام الذاتي. يستكشف هذا المقال ذاكرة التخزين المؤقت KV وتقنيات تحسينها. تقوم ذاكرة التخزين المؤقت KV بتخزين أزواج المفتاح والقيمة لكل رمز لتجنب الحسابات الزائدة، مما يقلل من التعقيد من O(n³) إلى O(n²)؛ ومع ذلك، فإن استهلاك الذاكرة لا يزال كبيراً. يناقش المقال 11 ورقة بحثية تقترح تحسينات: اختيار وتقليم الرموز بناءً على درجات الاهتمام، وتقنيات الضغط بعد المعالجة، وإعادة تصميمات معمارية مثل الانتباه الكامن متعدد الرؤوس (MLA). تهدف هذه التقنيات إلى تحقيق التوازن بين استخدام الذاكرة والكفاءة الحسابية، مما يجعل نماذج مثل ChatGPT أسرع وأكثر كفاءة في توليد النصوص.
اقرأ المزيد