QwQ-32B : Mise à l'échelle de l'apprentissage par renforcement pour améliorer le raisonnement dans les LLM

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-03-05

Des chercheurs ont réalisé une percée dans la mise à l'échelle de l'apprentissage par renforcement (RL) pour les grands modèles de langage (LLM). Leur modèle QwQ-32B, avec 32 milliards de paramètres, affiche des performances comparables à celles du modèle DeepSeek-R1 à 671 milliards de paramètres (avec 37 milliards activés), soulignant l'efficacité du RL appliqué à des modèles de base robustes. QwQ-32B, open source sur Hugging Face et ModelScope sous licence Apache 2.0, excelle dans le raisonnement mathématique, le codage et la résolution de problèmes généraux. Les travaux futurs se concentreront sur l'intégration d'agents avec le RL pour le raisonnement à long terme, repoussant les limites vers l'intelligence artificielle générale (AGI).