Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

DeepSeek-R1: نموذج استنتاج مدرب بتقنية التعلم المعزز وإصداراته المقطرة

2025-01-20

أصدرت DeepSeek نماذج الاستنتاج من الجيل الأول، DeepSeek-R1. تم تدريب DeepSeek-R1 باستخدام تقنية التعلم المعزز على نطاق واسع بدون ضبط دقيق مُشرف، مما يحلّ مشكلات مثل التكرار اللامتناهي وقابلية القراءة المنخفضة الموجودة في النموذج السابق، DeepSeek-R1-Zero، من خلال دمج بيانات بدء التشغيل البارد قبل تقنية التعلم المعزز. يُحقق DeepSeek-R1 أداءً مُقارباً لـ OpenAI-o1 عبر معايير مُختلفة. علاوةً على ذلك، أصدرت DeepSeek نماذج DeepSeek-R1 وستة نماذج مُقطّرة مُستندة إلى Llama وQwen كرموز مفتوحة المصدر. يتفوّق DeepSeek-R1-Distill-Qwen-32B على OpenAI-o1-mini في العديد من معايير الأداء، مُحققاً نتائج مُتقدّمة جديدة للنماذج المُقطّرة. هذه النماذج، بالإضافة إلى واجهة برمجة التطبيقات وواجهة الدردشة سهلة الاستخدام، متاحة على Hugging Face.