FlashMLA: نواة فك تشفير MLA فعالة لوحدات معالجة الرسومات Hopper

2025-02-24
FlashMLA: نواة فك تشفير MLA فعالة لوحدات معالجة الرسومات Hopper

FlashMLA هي نواة فك تشفير MLA فعالة للغاية، مُحسّنة لوحدات معالجة الرسومات Hopper، ومصممة لخدمة تسلسلات ذات أطوال متغيرة. تُحقق سرعة تصل إلى 3000 جيجابايت/ثانية في التكوينات المحدودة بالذاكرة و 580 تيرا فلوبس في التكوينات المحدودة بالحساب على H800 SXM5 باستخدام CUDA 12.6. يستخدم FlashMLA دقة BF16 و ذاكرة تخزين مؤقتة kvcache مُصفحة بحجم كتلة 64. مستوحاة من مشاريع FlashAttention 2&3 و Cutlass، تقدم FlashMLA تحسينات كبيرة في الأداء لمعالجة التسلسلات واسعة النطاق.