بناء نموذج لغة كبير من الصفر: غوص عميق في الانتباه الذاتي

2025-03-05
بناء نموذج لغة كبير من الصفر: غوص عميق في الانتباه الذاتي

تُعدّ هذه التدوينة، وهي الثامنة في سلسلة تُوثّق رحلة الكاتب عبر كتاب سيباستيان راشكا "بناء نموذج لغة كبير (من الصفر)"، تركّز على تنفيذ الانتباه الذاتي بأوزان قابلة للتدريب. تبدأ بمراجعة الخطوات المُتضمنة في نماذج اللغات الكبيرة المُحوّلة من نوع فك التشفير فقط على غرار GPT، بما في ذلك التضمينات الرمزية والموضعية، والانتباه الذاتي، وتطبيع درجات الانتباه، وتوليد متجهات السياق. ويتعمّق جوهر التدوينة في الانتباه بناتج النقطة المُقاس، مُشرحًا كيف تُسقِط مُصفوفات الأوزان القابلة للتدريب تضمينات الإدخال في مساحات مُختلفة (استعلام، مفتاح، قيمة). ويُستخدَم ضرب المُصفوفات من أجل حسابات مُؤثّرة. ويُقدّم الكاتب شرحًا واضحًا وآليًا للعملية، مُختتمًا بمعاينة للمواضيع المُقبلة: الانتباه الذاتي السببي والانتباه مُتعدد الرؤوس.

الذكاء الاصطناعي الانتباه الذاتي المُحوّل