QwQ-32B: توسيع نطاق التعلم المعزز لتحسين الاستدلال في نماذج اللغة الكبيرة

العلامات الشائعة：

الافتراضية أمان DNS التحقق الرسمي تحليل قابلية الوصول أخطاء المترجم تضارب الماكرو امتدادات الويب إطار عمل تطوير كومودور 64 بياسيك 2.0 جميع العلامات

2025-03-05

حقق الباحثون إنجازًا في توسيع نطاق التعلم المعزز (RL) لنماذج اللغة الكبيرة (LLM). يظهر نموذجهم QwQ-32B، الذي يحتوي على 32 مليار معلمة، أداءً مُقارِناً بنموذج DeepSeek-R1 الذي يحتوي على 671 مليار معلمة (مع 37 مليارًا مُفعّلة)، مما يُبرز فعالية RL المُطبّقة على نماذج أساسية قوية. نموذج QwQ-32B، متاح مفتوح المصدر على Hugging Face وModelScope برخصة Apache 2.0، يُبرِز كفاءته في الاستدلال الرياضي، والترميز، وحل المشكلات العامة. سيركّز العمل المُستقبلي على دمج الوكلاء مع RL للاستدلال على المدى الطويل، مُوسّعًا الحدود نحو الذكاء الاصطناعي العام (AGI).

الذكاء الاصطناعي