تحسين نواة ضرب المصفوفات في CUDA باستخدام Tensor Cores

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-04-19

تُفصّل هذه المقالة رحلة الكاتب في كتابة نواة مُحسّنة لضرب المصفوفات في CUDA باستخدام Tensor Cores على معالج رسوميات NVIDIA Tesla T4. كان الهدف هو حساب D = α * A * B + β * C بأسرع وقت ممكن. من خلال التحسين المتكرر لست نواة، حقّق الكاتب أداءً مُقارباً لأداء cuBLAS hgemm من NVIDIA، مُسلّطاً الضوء على تقنيات مثل التقسيم الهرمي، واستغلال التسلسل الهرمي للذاكرة، وإعادة استخدام البيانات، وتداخل الحساب مع حركة البيانات، والاستخدام الفعّال لـ Tensor Cores. يشارك الكاتب الأفكار المكتسبة من خلال عملية التشكيل الجانبي والتحسين، مُشدّداً على أهمية الكثافة الحسابية وعرض نطاق ذاكرة الوصول العشوائي.

التطوير