QwQ-32B: توسيع نطاق التعلم المعزز لتحسين الاستدلال في نماذج اللغة الكبيرة
2025-03-05
حقق الباحثون إنجازًا في توسيع نطاق التعلم المعزز (RL) لنماذج اللغة الكبيرة (LLM). يظهر نموذجهم QwQ-32B، الذي يحتوي على 32 مليار معلمة، أداءً مُقارِناً بنموذج DeepSeek-R1 الذي يحتوي على 671 مليار معلمة (مع 37 مليارًا مُفعّلة)، مما يُبرز فعالية RL المُطبّقة على نماذج أساسية قوية. نموذج QwQ-32B، متاح مفتوح المصدر على Hugging Face وModelScope برخصة Apache 2.0، يُبرِز كفاءته في الاستدلال الرياضي، والترميز، وحل المشكلات العامة. سيركّز العمل المُستقبلي على دمج الوكلاء مع RL للاستدلال على المدى الطويل، مُوسّعًا الحدود نحو الذكاء الاصطناعي العام (AGI).
الذكاء الاصطناعي