DeepSeek-R1: تحفيز قدرة التفكير في نماذج اللغات الكبيرة من خلال التعلم المعزز

2025-01-25
DeepSeek-R1: تحفيز قدرة التفكير في نماذج اللغات الكبيرة من خلال التعلم المعزز

تقدم DeepSeek-AI نماذجها من الجيل الأول للتفكير، DeepSeek-R1-Zero و DeepSeek-R1. يُظهر DeepSeek-R1-Zero، وهو نموذج تم تدريبه من خلال التعلم المعزز (RL) على نطاق واسع بدون ضبط دقيق مُشرف (SFT) كخطوة أولية، قدرات تفكير ملحوظة. من خلال RL، يظهر DeepSeek-R1-Zero بشكل طبيعي العديد من سلوكيات التفكير القوية والمثيرة للاهتمام. ومع ذلك، فإنه يواجه تحديات مثل سوء القابلية للقراءة، وخلط اللغات. لمعالجة هذه المشكلات وتعزيز أداء التفكير أكثر، نقدم DeepSeek-R1، الذي يتضمن تدريبًا متعدد المراحل وبيانات بدء التشغيل البارد قبل RL. يحقق DeepSeek-R1 أداءً مُقارِباً لأداء OpenAI-o1-1217 في مهام التفكير. لدعم مجتمع البحث، نُصدر DeepSeek-R1-Zero و DeepSeek-R1 وستة نماذج كثيفة (1.5B، 7B، 8B، 14B، 32B، 70B) مُقطّرة من DeepSeek-R1 بناءً على Qwen و Llama كمصدر مفتوح.

الذكاء الاصطناعي القدرة على التفكير