DeepSeek-R1: نموذج استنتاج مدرب بتقنية التعلم المعزز وإصداراته المقطرة
2025-01-20
أصدرت DeepSeek نماذج الاستنتاج من الجيل الأول، DeepSeek-R1. تم تدريب DeepSeek-R1 باستخدام تقنية التعلم المعزز على نطاق واسع بدون ضبط دقيق مُشرف، مما يحلّ مشكلات مثل التكرار اللامتناهي وقابلية القراءة المنخفضة الموجودة في النموذج السابق، DeepSeek-R1-Zero، من خلال دمج بيانات بدء التشغيل البارد قبل تقنية التعلم المعزز. يُحقق DeepSeek-R1 أداءً مُقارباً لـ OpenAI-o1 عبر معايير مُختلفة. علاوةً على ذلك، أصدرت DeepSeek نماذج DeepSeek-R1 وستة نماذج مُقطّرة مُستندة إلى Llama وQwen كرموز مفتوحة المصدر. يتفوّق DeepSeek-R1-Distill-Qwen-32B على OpenAI-o1-mini في العديد من معايير الأداء، مُحققاً نتائج مُتقدّمة جديدة للنماذج المُقطّرة. هذه النماذج، بالإضافة إلى واجهة برمجة التطبيقات وواجهة الدردشة سهلة الاستخدام، متاحة على Hugging Face.
الذكاء الاصطناعي
نماذج مُقطّرة