DeepSeek-R1: نموذج استنتاج مدرب بتعلم التعزيز، بدون حاجة لضبط دقيق تحت الإشراف

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-01-20

أصدر فريق DeepSeek نماذج الاستنتاج الخاصة به من الجيل الأول، DeepSeek-R1 ومجموعة من النماذج المقطرة، كمصدر مفتوح. DeepSeek-R1-Zero، المدرب من خلال تعلم التعزيز على نطاق واسع (RL) بدون ضبط دقيق تحت الإشراف (SFT)، يظهر قدرات استنتاجية رائعة، على الرغم من وجود بعض العيوب. يعالج DeepSeek-R1 هذه المشاكل من خلال دمج بيانات البدء البارد قبل RL، محققًا أداءً مشابهًا لأداء OpenAI-o1. تم أيضًا إصدار ستة نماذج مقطرة تستند إلى Llama وQwen كمصدر مفتوح، حيث يتفوق DeepSeek-R1-Distill-Qwen-32B على OpenAI-o1-mini في العديد من المقاييس. يدعم المشروع الاستخدام التجاري ويوفر موقعًا إلكترونيًا للدردشة عبر الإنترنت وواجهة برمجة تطبيقات متوافقة مع OpenAI.

الذكاء الاصطناعي