DeepSeek-VL2: نماذج رؤية-لغة خليط الخبراء لفهم متعدد الوسائط المتقدم
2025-01-01
DeepSeek-VL2 هي سلسلة متقدمة من نماذج رؤية-لغة كبيرة تعتمد على خليط الخبراء (MoE) والتي تحسن بشكل كبير من سابقتها. تتفوق في العديد من المهام، بما في ذلك الإجابة على الأسئلة المرئية، والتعرف على الحروف الضوئية، وفهم المستندات/الجداول/المخططات. تتكون السلسلة من ثلاثة أنواع: DeepSeek-VL2-Tiny و DeepSeek-VL2-Small و DeepSeek-VL2، مع 1.0 مليار و 2.8 مليار و 4.5 مليار من المعلمات المنشطة على التوالي. يحقق DeepSeek-VL2 أداءً تنافسيًا أو متطورًا بمعلمات منشطة مماثلة أو أقل مقارنةً بالنماذج مفتوحة المصدر الحالية. المشروع مفتوح المصدر، ويقدم تنزيلات النماذج، وأدلة البدء السريع، وأمثلة توضيحية.