DeepSeek-R1: تحفيز قدرة التفكير في نماذج اللغات الكبيرة من خلال التعلم المعزز

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-01-25

تقدم DeepSeek-AI نماذجها من الجيل الأول للتفكير، DeepSeek-R1-Zero و DeepSeek-R1. يُظهر DeepSeek-R1-Zero، وهو نموذج تم تدريبه من خلال التعلم المعزز (RL) على نطاق واسع بدون ضبط دقيق مُشرف (SFT) كخطوة أولية، قدرات تفكير ملحوظة. من خلال RL، يظهر DeepSeek-R1-Zero بشكل طبيعي العديد من سلوكيات التفكير القوية والمثيرة للاهتمام. ومع ذلك، فإنه يواجه تحديات مثل سوء القابلية للقراءة، وخلط اللغات. لمعالجة هذه المشكلات وتعزيز أداء التفكير أكثر، نقدم DeepSeek-R1، الذي يتضمن تدريبًا متعدد المراحل وبيانات بدء التشغيل البارد قبل RL. يحقق DeepSeek-R1 أداءً مُقارِباً لأداء OpenAI-o1-1217 في مهام التفكير. لدعم مجتمع البحث، نُصدر DeepSeek-R1-Zero و DeepSeek-R1 وستة نماذج كثيفة (1.5B، 7B، 8B، 14B، 32B، 70B) مُقطّرة من DeepSeek-R1 بناءً على Qwen و Llama كمصدر مفتوح.