ضرب المصفوفات FP32 المُحسّن على وحدة معالجة الرسومات AMD RDNA3: يتفوّق على rocBLAS بنسبة 60%

2025-03-28
ضرب المصفوفات FP32 المُحسّن على وحدة معالجة الرسومات AMD RDNA3: يتفوّق على rocBLAS بنسبة 60%

تُفصّل هذه المشاركة رحلة تحسين إنشاء نواة ضرب المصفوفات FP32 لوحدات معالجة الرسومات AMD RDNA3 التي تتفوّق على rocBLAS بنسبة 60%. يُحسّن الكاتب بشكلٍ متكرر ثمانية أنوية، بدءًا من التنفيذ الساذج وصولًا إلى تحسينات على مستوى ISA. تشمل التقنيات استخدام تقنية LDS tiling، و tiling للسجلات، و double buffering للذاكرة العالمية، وتحسين استخدام LDS، وأخيراً تحسين استخدام VALU على مستوى ISA و unrolling للحلقات. تتفوّق النواة النهائية على rocBLAS، حيث تصل إلى ما يقرب من 50 TFLOPS.

التطوير