Webtagr - ملخصات الأخبار التكنولوجية

OpenAI تطلق نماذج gpt-oss: نماذج لغوية ضخمة مفتوحة الوزن وقوية قابلة للتشغيل محليًا

2025-08-10

أصدرت OpenAI هذا الأسبوع نماذجها اللغوية الكبيرة الجديدة ذات الوزن المفتوح: gpt-oss-120b و gpt-oss-20b، وهما أول نموذجين لها مفتوحي الوزن منذ GPT-2 في عام 2019. والمثير للدهشة، بفضل التحسينات الذكية، يمكن تشغيلهما محليًا. تتعمق هذه المقالة في بنية نموذج gpt-oss، وتقارنه بنماذج مثل GPT-2 و Qwen3. وتسلط الضوء على خيارات البنية الفريدة، مثل خليط الخبراء (MoE)، والانتباه للاستعلامات المجمعة (GQA)، وانتباه النافذة المنزلقة. وعلى الرغم من أن معايير الأداء تُظهر أن gpt-oss يُقدم أداءً مُقارِباً للنماذج الخاصة في بعض المجالات، إلا أن إمكانية تشغيله محليًا وطبيعته مفتوحة المصدر تجعله موردًا قيِّمًا للبحث والتطبيقات.

اقرأ المزيد

(magazine.sebastianraschka.com)

الذكاء الاصطناعي وزن مفتوح

تطور بنية نماذج اللغات الكبيرة في عام 2025: دراسة معمقة لأنظمة DeepSeek وOLMo وGemma وMistral وQwen

2025-07-20

يستعرض هذا المقال التطورات المعمارية في نماذج اللغات الكبيرة (LLMs) خلال عام 2025، مع التركيز على النماذج مفتوحة المصدر مثل DeepSeek وOLMo وGemma وMistral وQwen. يعمل DeepSeek V3/R1 على تحسين الكفاءة الحسابية من خلال الانتباه الكامن متعدد الرؤوس (MLA) ومزيج الخبراء (MoE). يشدد OLMo 2 على وضع RMSNorm، باستخدام Post-Norm وQK-Norm. تستخدم Gemma 3 الانتباه ذو النافذة المنزلقة لتقليل متطلبات الذاكرة. يوازن Mistral Small 3.1 بين الأداء والسرعة. يوفر Qwen 3 كلًا من المتغيرات الكثيفة وMoE من أجل المرونة. يتميز SmolLM3 بحجمه الذي يبلغ 3 مليارات معلمة وتقنية NoPE (بدون تضمينات مكانية). أخيرًا، يبهر Kimi 2 بمقياسه الذي يبلغ تريليون معلمة ومحسن Muon. تعرض هذه النماذج ابتكارات في آليات الانتباه، والتحقق من الصحة، وMoE، والمحسنات، مما يدل على تنوع وتطور مستمر لبنى LLMs.

اقرأ المزيد

(magazine.sebastianraschka.com)

الذكاء الاصطناعي ابتكارات معمارية

أربعة نهج لبناء نماذج الاستدلال لأنظمة معالجة اللغات الكبيرة (LLMs)

2025-02-06

تستكشف هذه المقالة أربعة نهج رئيسية لتعزيز نماذج اللغات الكبيرة (LLMs) بقدرات الاستدلال: توسيع نطاق وقت الاستنتاج، والتعلم المعزز النقي، والضبط الدقيق الخاضع للإشراف بالإضافة إلى التعلم المعزز، وتقطير النماذج. ويُستخدم تطوير DeepSeek R1 كدراسة حالة، تعرض كيف يمكن لهذه الأساليب بناء نماذج استدلال قوية، وكيف يمكن حتى للباحثين ذوي الميزانيات المحدودة تحقيق نتائج رائعة من خلال التقطير. كما تقارن المقالة بين DeepSeek R1 و o1 من OpenAI، وتناقش استراتيجيات لبناء نماذج استدلال فعالة من حيث التكلفة.

اقرأ المزيد

(magazine.sebastianraschka.com)

الذكاء الاصطناعي