ما وراء cuBLAS و CUTLASS: محرك جديد لنواة ضرب المصفوفات
تُعدّ عملية ضرب المصفوفات جوهر الحوسبة الحديثة، خاصةً في مجال الذكاء الاصطناعي حيث تؤثر سرعتها بشكل مباشر على قدرات النموذج. وعلى الرغم من كفاءة مُسرّعات الأجهزة مثل Tensor Cores من NVIDIA، إلا أنها تفتقر إلى المرونة. يقدّم هذا المقال CubeCL، وهو محرّك جديد يُولّد نواة ضرب المصفوفات المُحسّنة عبر منصّات متعددة. يستخدم CubeCL تجريدًا هرميًا (Tile، Stage، Global، Batch Matmul) وخوارزميات متعددة (Simple، Double Buffering، Ordered، إلخ) لتحقيق ذلك. وهو يستفيد بذكاء من خصائص بنية وحدة معالجة الرسوميات، مثل التنفيذ المتزامن للطائرات والوصول إلى الذاكرة المترابطة، باستخدام تقنيات مثل التخزين المؤقت المزدوج لإخفاء زمن الوصول إلى الذاكرة. تُظهر اختبارات الأداء تحسينات كبيرة في الأداء على وحدات معالجة الرسوميات المختلفة (NVIDIA، AMD، و Apple Silicon)، متجاوزةً حتى cuBLAS و CUTLASS في بعض الحالات.