DeepSeek-V3: نموذج لغة مفتوح المصدر من نوع خليط الخبراء بـ 671 مليار معامل

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2024-12-26

DeepSeek-V3 هو نموذج لغة قوي من نوع خليط الخبراء (MoE) يحتوي على 671 مليار معامل، حيث يتم تنشيط 37 مليار معامل لكل رمز. يستخدم نموذج DeepSeek-V3 تقنية الانتباه الكامن متعدد الرؤوس (MLA) وهندسة DeepSeekMoE، ويبتكر استراتيجية موازنة الحمل بدون خسارة إضافية وهدف تدريب تنبؤ متعدد الرموز. تم تدريب DeepSeek-V3 مسبقًا على 14.8 تريليون رمز عالي الجودة، متبوعًا بضبط دقيق تحت الإشراف والتعلم المعزز. تُظهر نتائج التقييم أن DeepSeek-V3 يتفوق على نماذج المصدر المفتوح الأخرى، ويحقق أداءً مُقارِباً لأداء النماذج المغلقة الرائدة، مع كفاءة تدريب ملحوظة - 2.788 مليون ساعة من معالجة وحدات معالجة الرسومات H800 فقط.

الذكاء الاصطناعي