ما وراء آلية الانتباه: التطورات الحديثة في بنى المحولات الفعّالة
تتناول هذه المقالة العديد من التطورات الرئيسية في بنى المحولات التي تتجاوز آلية الانتباه الأصلية. تركز هذه التقنيات بشكل أساسي على تقليل التعقيد الحسابي ومتطلبات الذاكرة. ومن الأمثلة على ذلك، آلية الانتباه الاستعلامي الجماعي (GQA) التي تقلل من استخدام الذاكرة من خلال مشاركة إسقاطات المفتاح/القيمة؛ وآلية الانتباه الكامن متعدد الرؤوس (MHA) التي تستخدم المتجهات الكامنة لتقليل التعقيد الحسابي؛ وآلية Flash Attention التي تُحسّن السرعة من خلال إدارة الذاكرة الذكية؛ وآلية Ring Attention التي تستخدم التوازي متعدد وحدات معالجة الرسومات (GPUs) للتسلسلات الطويلة للغاية. بالإضافة إلى ذلك، تتناول المقالة ما قبل التطبيع، وRMSNorm، ووظائف التنشيط SwiGLU، وطرق التطبيع، بالإضافة إلى تسخين معدل التعلم، والجدولة الجيبية، ومزيج الخبراء (MoE)، والتنبؤ بالعديد من الرموز، وفك التشفير التوقعي. تعمل هذه التقنيات مجتمعة على دفع حدود المحولات، مما يسمح لها بمعالجة التسلسلات الأطول والبيانات ذات الأبعاد الأعلى بكفاءة أكبر، مما يحسن في النهاية كل من السرعة والأداء.