محولات فعالة: خليط الخبراء ذو البوابة المتفرقة (MoE)

2025-04-20

تُعد طبقات التغذية الأمامية في نماذج المحولات ضخمة في الغالب، مما يخلق اختناقًا في الكفاءة. يوفر خليط الخبراء ذو البوابة المتفرقة (MoE) حلاً أنيقًا. يقوم MoE بتفكيك طبقة التغذية الأمامية الكبيرة إلى العديد من شبكات "الخبراء" الأصغر حجمًا، ويستخدم جهاز توجيه لتحديد المجموعة المثلى من الخبراء لحساب كل رمز، مما يقلل بشكل كبير من التكلفة الحسابية ويحسن الكفاءة. تشرح هذه المقالة آلية عمل MoE، وتقدم تنفيذًا باستخدام NumPy، وتناقش أيضًا قضايا رئيسية مثل موازنة حمل الخبراء.

التطوير كفاءة النموذج