FlashMLA: نواة فك تشفير MLA فعالة لوحدات معالجة الرسومات Hopper
2025-02-24
FlashMLA هي نواة فك تشفير MLA فعالة للغاية، مُحسّنة لوحدات معالجة الرسومات Hopper، ومصممة لخدمة تسلسلات ذات أطوال متغيرة. تُحقق سرعة تصل إلى 3000 جيجابايت/ثانية في التكوينات المحدودة بالذاكرة و 580 تيرا فلوبس في التكوينات المحدودة بالحساب على H800 SXM5 باستخدام CUDA 12.6. يستخدم FlashMLA دقة BF16 و ذاكرة تخزين مؤقتة kvcache مُصفحة بحجم كتلة 64. مستوحاة من مشاريع FlashAttention 2&3 و Cutlass، تقدم FlashMLA تحسينات كبيرة في الأداء لمعالجة التسلسلات واسعة النطاق.