تنفيذ واجهة الخلفية لـ Flash Attention في SGLang: الأساسيات وذاكرة التخزين المؤقت KV

2025-04-29
تنفيذ واجهة الخلفية لـ Flash Attention في SGLang: الأساسيات وذاكرة التخزين المؤقت KV

تُفصّل هذه المدونة عملية التنفيذ الشاملة لواجهة الخلفية لـ Flash Attention في SGLang، والتي أصبحت الآن واجهة الخلفية للاهتمام الافتراضية في إصدار SGLang 0.4.6. تغوص المدونة بعمق في كيفية عمل واجهات الخلفية للاهتمام في محركات خدمة LLM الحديثة، وتشرح آلية عمل Flash Attention الداخلية. يشارك الكاتب تفاصيل التنفيذ، بما في ذلك ذاكرة التخزين المؤقت KV ودعم رسم CUDA، ويحدد الأعمال المستقبلية مثل فك التشفير الاستباقي، وMLA، وLlama 4، والدعم متعدد الوسائط. تُظهر الاختبارات المعيارية أن FA3 يوفر باستمرار أعلى معدل إنتاجية، متفوقًا على FlashInfer وTriton.

التطوير