DeepSeek R1: نموذج مفتوح المصدر يتحدى OpenAI في الاستدلال المعقد

2025-01-31
DeepSeek R1: نموذج مفتوح المصدر يتحدى OpenAI في الاستدلال المعقد

يُشكّل DeepSeek R1، وهو نموذج مفتوح المصدر، تحديًا لنماذج OpenAI في مهام الاستدلال المعقدة. باستخدام تحسين سياسة المجموعة النسبية (GRPO) ونهج تدريب متعدد المراحل يركز على التعلم المعزز، أصدر المبدعون ليس فقط النموذج، بل أيضًا ورقة بحثية مفصلة لتطويره. تصف الورقة "لحظة أُوكا" خلال التدريب، حيث تعلم النموذج تخصيص المزيد من وقت التفكير لمشكلة ما من خلال إعادة تقييم نهجه الأولي، دون أي تغذية راجعة بشرية. تُعيد هذه المدونة إنشاء هذه "لحظة أُوكا" باستخدام GRPO ولعبة العد التنازلي، وتدريب نموذج مفتوح لتعلم قدرات التحقق الذاتي وقدرات البحث. يتم توفير رمز تفاعلي لجهاز كمبيوتر محمول Jupyter، بالإضافة إلى نصوص وتعليمات للتدريب الموزع على عقد متعددة الوحدات المعالجة الرسومية أو مجموعات SLURM، لتسهيل تعلم GRPO و TRL.

الذكاء الاصطناعي