نسخ مصفوفة عالي الكفاءة في موجو: هل يتفوق على CUDA؟
2025-06-06
تتناول هذه المدونة كيفية تنفيذ نواة نسخ مصفوفة عالية الكفاءة على بنية هوبر باستخدام موجو. يشرح الكاتب التحسينات، بدءًا من نهج بسيط وصولاً إلى نواة تحقق عرض نطاق ترددي يبلغ 2775.49 جيجابت/ثانية - وهو ما يضاهي، وربما يتجاوز، تنفيذ CUDA المكافئ. تتضمن التحسينات استخدام واصفات TMA (وصول خريطة الموتر)، وتحسينات الذاكرة المشتركة، وتبديل البيانات، وتقوية الخيوط. تعمق هذه المدونة في تفاصيل التنفيذ ومكاسب الأداء لكل تقنية، مع توفير أمثلة كاملة للرموز.