فرز بتوني أسرع بنسبة 30% على CUDA: الاستفادة من تبديل الـ Warp
2025-05-06
تتناول هذه المدونة شرحًا لتنفيذ خوارزمية الفرز بتوني على CUDA، حيث تم تحقيق زيادة في الأداء بنسبة 30% من خلال استخدام تعليمة `__shfl_sync` بذكاء. يشرح الكاتب مبادئ الفرز بتوني، وبرمجة SIMD، وتفاصيل تنفيذ CUDA. تكمن أهمية التحسين في استبدال طريقة الاتصال التقليدية بذاكرة مشتركة باستخدام `__shfl_sync`، مما يلغي عبء التزامن ويحسن الكفاءة بشكل ملحوظ. تشير المقالة أيضًا إلى إمكانية استخدام هذا الفرز المُسرّع لـ 32 عنصرًا لتسريع فرز التسلسلات الأكبر حجمًا، مع وعد بتحديث لاحق حول تحسين دمج 32 طريقًا.