DeepSeek-R1: نموذج استنتاج مدرب بتعلم التعزيز، بدون حاجة لضبط دقيق تحت الإشراف

2025-01-20
DeepSeek-R1: نموذج استنتاج مدرب بتعلم التعزيز، بدون حاجة لضبط دقيق تحت الإشراف

أصدر فريق DeepSeek نماذج الاستنتاج الخاصة به من الجيل الأول، DeepSeek-R1 ومجموعة من النماذج المقطرة، كمصدر مفتوح. DeepSeek-R1-Zero، المدرب من خلال تعلم التعزيز على نطاق واسع (RL) بدون ضبط دقيق تحت الإشراف (SFT)، يظهر قدرات استنتاجية رائعة، على الرغم من وجود بعض العيوب. يعالج DeepSeek-R1 هذه المشاكل من خلال دمج بيانات البدء البارد قبل RL، محققًا أداءً مشابهًا لأداء OpenAI-o1. تم أيضًا إصدار ستة نماذج مقطرة تستند إلى Llama وQwen كمصدر مفتوح، حيث يتفوق DeepSeek-R1-Distill-Qwen-32B على OpenAI-o1-mini في العديد من المقاييس. يدعم المشروع الاستخدام التجاري ويوفر موقعًا إلكترونيًا للدردشة عبر الإنترنت وواجهة برمجة تطبيقات متوافقة مع OpenAI.

الذكاء الاصطناعي