دفع الحدود إلى أقصى حد: نواة تجميع NEON ARM Cortex-A53 مكتوبة يدويًا
2025-04-21
يتعمق هذا المنشور في تحسين نواة التجميع NEON لأنظمة ARM Cortex-A53. باستخدام y[n] = ax[n] + b كمثال، يشرح الكاتب بعناية كيفية الاستفادة من خصائص توقيت التعليمات في Cortex-A53 (إمكانيات الإصدار المزدوج الجزئي والتنفيذ حسب الترتيب) للتغلب على قيود مسار بيانات التحميل 64 بت. يتم استخدام تقنيات مثل خط أنابيب التعليمات وجلب البيانات المسبق لتعظيم الأداء. تتفوق نواة التجميع المكتوبة يدويًا بشكل كبير على الكود الذي تم إنشاؤه بواسطة LLVM، مما يبرز إمكانات التحسين اليدوي عندما تفتقر النماذج القوية لوحدة المعالجة المركزية.
التطوير