320亿参数的QwQ-32B模型：强化学习的规模化突破

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

320亿参数的QwQ-32B模型：强化学习的规模化突破

2025-03-05

研究人员通过强化学习（RL）技术，成功训练出320亿参数的QwQ-32B大型语言模型，其性能可与拥有6710亿参数的DeepSeek-R1（370亿激活参数）相媲美。该研究表明，将RL应用于强大的预训练基础模型，即使参数量较小，也能取得显著效果。QwQ-32B已在Hugging Face和ModelScope开源，并支持通过Qwen Chat访问。该模型在数学推理、代码能力和通用问题解决方面均表现出色，未来将进一步探索RL与Agent的结合，以实现更长远的目标推理，朝着通用人工智能（AGI）迈进。

(qwenlm.github.io)

时尚杂志的$50,000现金骗局：一个关于银行程序和调查记者的真实故事

英国政府删除了支持苹果ADP的文档？