تجاوز cuBLAS: تنفيذ CUDA لضرب المصفوفات بدقة مفردة

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-01-18

تقدم هذه المقالة تنفيذ CUDA لعملية ضرب المصفوفات العامة بدقة مفردة (SGEMM) والتي تتفوق على cuBLAS في بعض الحالات. من خلال استخدام تعليمات PTX بذكاء، ونسخ الذاكرة غير المتزامن، والذاكرة المؤقتة المزدوجة، وغيرها من تقنيات التحسين، حقق الكاتب عملية ضرب مصفوفات فعالة، تم ضبطها خصيصًا لوحدة معالجة الرسومات NVIDIA RTX 3090. وتفصل المقالة تصميم الخوارزمية، وتقنيات التحسين، ومنهجية قياس الأداء، مما يوفر خبرة قيّمة لمتعلمي CUDA.

التطوير