تطور بنية نماذج اللغات الكبيرة في عام 2025: دراسة معمقة لأنظمة DeepSeek وOLMo وGemma وMistral وQwen

2025-07-20
تطور بنية نماذج اللغات الكبيرة في عام 2025: دراسة معمقة لأنظمة DeepSeek وOLMo وGemma وMistral وQwen

يستعرض هذا المقال التطورات المعمارية في نماذج اللغات الكبيرة (LLMs) خلال عام 2025، مع التركيز على النماذج مفتوحة المصدر مثل DeepSeek وOLMo وGemma وMistral وQwen. يعمل DeepSeek V3/R1 على تحسين الكفاءة الحسابية من خلال الانتباه الكامن متعدد الرؤوس (MLA) ومزيج الخبراء (MoE). يشدد OLMo 2 على وضع RMSNorm، باستخدام Post-Norm وQK-Norm. تستخدم Gemma 3 الانتباه ذو النافذة المنزلقة لتقليل متطلبات الذاكرة. يوازن Mistral Small 3.1 بين الأداء والسرعة. يوفر Qwen 3 كلًا من المتغيرات الكثيفة وMoE من أجل المرونة. يتميز SmolLM3 بحجمه الذي يبلغ 3 مليارات معلمة وتقنية NoPE (بدون تضمينات مكانية). أخيرًا، يبهر Kimi 2 بمقياسه الذي يبلغ تريليون معلمة ومحسن Muon. تعرض هذه النماذج ابتكارات في آليات الانتباه، والتحقق من الصحة، وMoE، والمحسنات، مما يدل على تنوع وتطور مستمر لبنى LLMs.

الذكاء الاصطناعي ابتكارات معمارية