DeepSeek-V3: نموذج لغة مفتوح المصدر من نوع خليط الخبراء بـ 671 مليار معامل

2024-12-26
DeepSeek-V3: نموذج لغة مفتوح المصدر من نوع خليط الخبراء بـ 671 مليار معامل

DeepSeek-V3 هو نموذج لغة قوي من نوع خليط الخبراء (MoE) يحتوي على 671 مليار معامل، حيث يتم تنشيط 37 مليار معامل لكل رمز. يستخدم نموذج DeepSeek-V3 تقنية الانتباه الكامن متعدد الرؤوس (MLA) وهندسة DeepSeekMoE، ويبتكر استراتيجية موازنة الحمل بدون خسارة إضافية وهدف تدريب تنبؤ متعدد الرموز. تم تدريب DeepSeek-V3 مسبقًا على 14.8 تريليون رمز عالي الجودة، متبوعًا بضبط دقيق تحت الإشراف والتعلم المعزز. تُظهر نتائج التقييم أن DeepSeek-V3 يتفوق على نماذج المصدر المفتوح الأخرى، ويحقق أداءً مُقارِباً لأداء النماذج المغلقة الرائدة، مع كفاءة تدريب ملحوظة - 2.788 مليون ساعة من معالجة وحدات معالجة الرسومات H800 فقط.

الذكاء الاصطناعي