ضرب المصفوفات FP32 المُحسّن على وحدة معالجة الرسومات AMD RDNA3: يتفوّق على rocBLAS بنسبة 60%
2025-03-28
تُفصّل هذه المشاركة رحلة تحسين إنشاء نواة ضرب المصفوفات FP32 لوحدات معالجة الرسومات AMD RDNA3 التي تتفوّق على rocBLAS بنسبة 60%. يُحسّن الكاتب بشكلٍ متكرر ثمانية أنوية، بدءًا من التنفيذ الساذج وصولًا إلى تحسينات على مستوى ISA. تشمل التقنيات استخدام تقنية LDS tiling، و tiling للسجلات، و double buffering للذاكرة العالمية، وتحسين استخدام LDS، وأخيراً تحسين استخدام VALU على مستوى ISA و unrolling للحلقات. تتفوّق النواة النهائية على rocBLAS، حيث تصل إلى ما يقرب من 50 TFLOPS.
التطوير