QwQ-32B : Mise à l'échelle de l'apprentissage par renforcement pour améliorer le raisonnement dans les LLM

2025-03-05
QwQ-32B : Mise à l'échelle de l'apprentissage par renforcement pour améliorer le raisonnement dans les LLM

Des chercheurs ont réalisé une percée dans la mise à l'échelle de l'apprentissage par renforcement (RL) pour les grands modèles de langage (LLM). Leur modèle QwQ-32B, avec 32 milliards de paramètres, affiche des performances comparables à celles du modèle DeepSeek-R1 à 671 milliards de paramètres (avec 37 milliards activés), soulignant l'efficacité du RL appliqué à des modèles de base robustes. QwQ-32B, open source sur Hugging Face et ModelScope sous licence Apache 2.0, excelle dans le raisonnement mathématique, le codage et la résolution de problèmes généraux. Les travaux futurs se concentreront sur l'intégration d'agents avec le RL pour le raisonnement à long terme, repoussant les limites vers l'intelligence artificielle générale (AGI).

IA