QwQ-32B:LLMにおける推論能力向上のための強化学習のスケーリング

2025-03-05
QwQ-32B:LLMにおける推論能力向上のための強化学習のスケーリング

研究者らは、大規模言語モデル(LLM)における強化学習(RL)のスケーリングにおいてブレークスルーを達成しました。320億パラメータのQwQ-32Bモデルは、6710億パラメータ(活性化パラメータ370億)のDeepSeek-R1と匹敵する性能を示し、堅牢な基礎モデルへのRL適用効果の高さを示しています。Apache 2.0ライセンスの下、Hugging FaceとModelScopeでオープンソース化されたQwQ-32Bは、数学的推論、コーディング、一般的な問題解決において優れた性能を発揮します。今後の研究は、長期的な推論を実現するためのRLとエージェントの統合に焦点を当て、人工汎用知能(AGI)への道を切り開きます。

AI