DeepSeek R1: نموذج مفتوح المصدر يتحدى OpenAI في الاستدلال المعقد

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-01-31

يُشكّل DeepSeek R1، وهو نموذج مفتوح المصدر، تحديًا لنماذج OpenAI في مهام الاستدلال المعقدة. باستخدام تحسين سياسة المجموعة النسبية (GRPO) ونهج تدريب متعدد المراحل يركز على التعلم المعزز، أصدر المبدعون ليس فقط النموذج، بل أيضًا ورقة بحثية مفصلة لتطويره. تصف الورقة "لحظة أُوكا" خلال التدريب، حيث تعلم النموذج تخصيص المزيد من وقت التفكير لمشكلة ما من خلال إعادة تقييم نهجه الأولي، دون أي تغذية راجعة بشرية. تُعيد هذه المدونة إنشاء هذه "لحظة أُوكا" باستخدام GRPO ولعبة العد التنازلي، وتدريب نموذج مفتوح لتعلم قدرات التحقق الذاتي وقدرات البحث. يتم توفير رمز تفاعلي لجهاز كمبيوتر محمول Jupyter، بالإضافة إلى نصوص وتعليمات للتدريب الموزع على عقد متعددة الوحدات المعالجة الرسومية أو مجموعات SLURM، لتسهيل تعلم GRPO و TRL.

الذكاء الاصطناعي