تجاوز cuBLAS: تنفيذ CUDA لضرب المصفوفات بدقة مفردة
2025-01-18
تقدم هذه المقالة تنفيذ CUDA لعملية ضرب المصفوفات العامة بدقة مفردة (SGEMM) والتي تتفوق على cuBLAS في بعض الحالات. من خلال استخدام تعليمات PTX بذكاء، ونسخ الذاكرة غير المتزامن، والذاكرة المؤقتة المزدوجة، وغيرها من تقنيات التحسين، حقق الكاتب عملية ضرب مصفوفات فعالة، تم ضبطها خصيصًا لوحدة معالجة الرسومات NVIDIA RTX 3090. وتفصل المقالة تصميم الخوارزمية، وتقنيات التحسين، ومنهجية قياس الأداء، مما يوفر خبرة قيّمة لمتعلمي CUDA.
التطوير