320亿参数的QwQ-32B模型:强化学习的规模化突破
2025-03-05
研究人员通过强化学习(RL)技术,成功训练出320亿参数的QwQ-32B大型语言模型,其性能可与拥有6710亿参数的DeepSeek-R1(370亿激活参数)相媲美。该研究表明,将RL应用于强大的预训练基础模型,即使参数量较小,也能取得显著效果。QwQ-32B已在Hugging Face和ModelScope开源,并支持通过Qwen Chat访问。该模型在数学推理、代码能力和通用问题解决方面均表现出色,未来将进一步探索RL与Agent的结合,以实现更长远的目标推理,朝着通用人工智能(AGI)迈进。
AI