Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

بناء نموذج لغة كبير من الصفر: غوص عميق في الانتباه الذاتي

2025-03-05

تُعدّ هذه التدوينة، وهي الثامنة في سلسلة تُوثّق رحلة الكاتب عبر كتاب سيباستيان راشكا "بناء نموذج لغة كبير (من الصفر)"، تركّز على تنفيذ الانتباه الذاتي بأوزان قابلة للتدريب. تبدأ بمراجعة الخطوات المُتضمنة في نماذج اللغات الكبيرة المُحوّلة من نوع فك التشفير فقط على غرار GPT، بما في ذلك التضمينات الرمزية والموضعية، والانتباه الذاتي، وتطبيع درجات الانتباه، وتوليد متجهات السياق. ويتعمّق جوهر التدوينة في الانتباه بناتج النقطة المُقاس، مُشرحًا كيف تُسقِط مُصفوفات الأوزان القابلة للتدريب تضمينات الإدخال في مساحات مُختلفة (استعلام، مفتاح، قيمة). ويُستخدَم ضرب المُصفوفات من أجل حسابات مُؤثّرة. ويُقدّم الكاتب شرحًا واضحًا وآليًا للعملية، مُختتمًا بمعاينة للمواضيع المُقبلة: الانتباه الذاتي السببي والانتباه مُتعدد الرؤوس.