DeepSeek v3: تحسينات كبيرة في بنية Transformer

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-01-28

يحقق DeepSeek v3 أداءً متطورًا في المعايير مع كمية حسابية أقل بكثير من النماذج المماثلة. ويعود ذلك إلى تحسينات معمارية رئيسية: تقلل تقنية الانتباه الكامن متعدد الرؤوس (MLA) حجم ذاكرة التخزين المؤقت KV بشكل كبير دون التضحية بجودة النموذج؛ ويعالج نموذج الخبراء المختلط (MoE) المحسّن مشكلة انهيار التوجيه من خلال موازنة التحميل بدون خسارة مساعدة وخبراء مشتركين؛ كما تزيد التنبؤات متعددة الرموز من كفاءة التدريب وسرعة الاستنتاج. تُظهر هذه التحسينات فهمًا عميقًا لعمارة Transformer وتُشير إلى الطريق المُستقبلي لأنماط اللغات الكبيرة.

الذكاء الاصطناعي