الانتباه المتناثر الأصلي: محاذاة الأجهزة وقابلية التدريب الأصلي
2025-08-02
لا يزال تصميم النماذج اللغوية التي تتعامل مع سياقات طويلة تحديًا في معالجة اللغة الطبيعية. تقدّم هذه الورقة البحثية من مؤتمر ACL لعام 2025 آلية انتباه متناثر تُدعى NSA. تجمع NSA بذكاء بين الابتكارات الخوارزمية وتحسينات الأجهزة. باستخدام استراتيجية متناثرة هرمية ديناميكية (ضغط الرموز الخشنة واختيار الرموز الدقيقة)، تحقق مكاسب كبيرة في الكفاءة مع الحفاظ على وعي السياق العام والدقة المحلية. تتيح NSA التدريب من النهاية إلى النهاية، مما يقلل من تكاليف التدريب المسبق، وتساوي أو تتجاوز نماذج الانتباه الكاملة في العديد من المعايير، وتظهر تسريعات كبيرة في تسلسلات بطول 64 كيلو بت في فك التشفير، والانتشار الأمامي، والانتشار العكسي.
اقرأ المزيد