انتباه المنتج التنسوري: كل ما تحتاجه

2025-01-22
انتباه المنتج التنسوري: كل ما تحتاجه

عادةً ما يتطلب توسيع نطاق نماذج اللغات للتعامل مع تسلسلات الإدخال الأطول ذاكرات تخزين كبيرة للقيمة الرئيسية (KV)، مما يؤدي إلى زيادة كبيرة في استهلاك الذاكرة أثناء الاستدلال. تقترح هذه الورقة انتباه المنتج التنسوري (TPA)، وهي آلية انتباه جديدة تستخدم التحلل التنسوري لتمثيل الاستعلامات والمفاتيح والقيم بشكل مضغوط، مما يقلل بشكل كبير من حجم ذاكرة التخزين المؤقت KV أثناء الاستدلال. من خلال تحليل هذه التمثيلات إلى مكونات منخفضة الرتبة سياقية (التحليل السياقي) ودمجها بسلاسة مع RoPE، يحسن TPA جودة النموذج مع الحفاظ على كفاءة الذاكرة. بناءً على TPA، يقدم المؤلفون محول انتباه المنتج التنسوري (T6)، وهي بنية نموذج جديدة لنمذجة التسلسل. تُظهر التقييمات التجريبية المكثفة على مهام نمذجة اللغة أن T6 يتفوق على نماذج Transformer القياسية بما في ذلك MHA وMQA وGQA وMLA عبر العديد من المقاييس، بما في ذلك الارتباك ومجموعة من معايير التقييم المعروفة. بشكل ملحوظ، تسمح كفاءة ذاكرة TPA بمعالجة تسلسلات أطول بكثير تحت قيود موارد ثابتة، مما يعالج تحديًا رئيسيًا للقياس في نماذج اللغات الحديثة. الكود متوفر.