DeepGEMM: نواة GEMM فعالة و أنيقة بنوع FP8 و بتدرج دقيق
2025-02-26
DeepGEMM هي مكتبة لنواة ضرب المصفوفات العامة (GEMMs) بنوع FP8 فعالة و أنيقة على معالجات NVIDIA Hopper Tensor Cores، مع تدرج دقيق كما هو مقترح في DeepSeek-V3. تدعم كل من GEMMs العادية و GEMMs المجمعة من نوع Mix-of-Experts (MoE)، وتستخدم مُجمِّع Just-In-Time (JIT) خفيف الوزن، مما يلغي الحاجة إلى عملية تجميع أثناء التثبيت. تعالج مشكلة عدم دقة تراكم نواة المُوتر من نوع FP8 من خلال تراكم مُستويين (ترقية) على مستوى نواة CUDA. على الرغم من تصميمها المُختصر (~300 سطر من التعليمات البرمجية الأساسية)، فإن أداء DeepGEMM يُطابق أو يتجاوز أداء المكتبات المُحسّنة من قبل الخبراء عبر أشكال المصفوفات المختلفة.
التطوير