تطور بنية نماذج اللغات الكبيرة في عام 2025: دراسة معمقة لأنظمة DeepSeek وOLMo وGemma وMistral وQwen

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-07-20

يستعرض هذا المقال التطورات المعمارية في نماذج اللغات الكبيرة (LLMs) خلال عام 2025، مع التركيز على النماذج مفتوحة المصدر مثل DeepSeek وOLMo وGemma وMistral وQwen. يعمل DeepSeek V3/R1 على تحسين الكفاءة الحسابية من خلال الانتباه الكامن متعدد الرؤوس (MLA) ومزيج الخبراء (MoE). يشدد OLMo 2 على وضع RMSNorm، باستخدام Post-Norm وQK-Norm. تستخدم Gemma 3 الانتباه ذو النافذة المنزلقة لتقليل متطلبات الذاكرة. يوازن Mistral Small 3.1 بين الأداء والسرعة. يوفر Qwen 3 كلًا من المتغيرات الكثيفة وMoE من أجل المرونة. يتميز SmolLM3 بحجمه الذي يبلغ 3 مليارات معلمة وتقنية NoPE (بدون تضمينات مكانية). أخيرًا، يبهر Kimi 2 بمقياسه الذي يبلغ تريليون معلمة ومحسن Muon. تعرض هذه النماذج ابتكارات في آليات الانتباه، والتحقق من الصحة، وMoE، والمحسنات، مما يدل على تنوع وتطور مستمر لبنى LLMs.