تحسين نواة ضرب المصفوفات في CUDA باستخدام Tensor Cores

2025-04-19

تُفصّل هذه المقالة رحلة الكاتب في كتابة نواة مُحسّنة لضرب المصفوفات في CUDA باستخدام Tensor Cores على معالج رسوميات NVIDIA Tesla T4. كان الهدف هو حساب D = α * A * B + β * C بأسرع وقت ممكن. من خلال التحسين المتكرر لست نواة، حقّق الكاتب أداءً مُقارباً لأداء cuBLAS hgemm من NVIDIA، مُسلّطاً الضوء على تقنيات مثل التقسيم الهرمي، واستغلال التسلسل الهرمي للذاكرة، وإعادة استخدام البيانات، وتداخل الحساب مع حركة البيانات، والاستخدام الفعّال لـ Tensor Cores. يشارك الكاتب الأفكار المكتسبة من خلال عملية التشكيل الجانبي والتحسين، مُشدّداً على أهمية الكثافة الحسابية وعرض نطاق ذاكرة الوصول العشوائي.

التطوير