فرز بتوني أسرع بنسبة 30% على CUDA: الاستفادة من تبديل الـ Warp

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-05-06

تتناول هذه المدونة شرحًا لتنفيذ خوارزمية الفرز بتوني على CUDA، حيث تم تحقيق زيادة في الأداء بنسبة 30% من خلال استخدام تعليمة `__shfl_sync` بذكاء. يشرح الكاتب مبادئ الفرز بتوني، وبرمجة SIMD، وتفاصيل تنفيذ CUDA. تكمن أهمية التحسين في استبدال طريقة الاتصال التقليدية بذاكرة مشتركة باستخدام `__shfl_sync`، مما يلغي عبء التزامن ويحسن الكفاءة بشكل ملحوظ. تشير المقالة أيضًا إلى إمكانية استخدام هذا الفرز المُسرّع لـ 32 عنصرًا لتسريع فرز التسلسلات الأكبر حجمًا، مع وعد بتحديث لاحق حول تحسين دمج 32 طريقًا.