QwQ-32B：LLMにおける推論能力向上のための強化学習のスケーリング

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-03-05

研究者らは、大規模言語モデル（LLM）における強化学習（RL）のスケーリングにおいてブレークスルーを達成しました。320億パラメータのQwQ-32Bモデルは、6710億パラメータ（活性化パラメータ370億）のDeepSeek-R1と匹敵する性能を示し、堅牢な基礎モデルへのRL適用効果の高さを示しています。Apache 2.0ライセンスの下、Hugging FaceとModelScopeでオープンソース化されたQwQ-32Bは、数学的推論、コーディング、一般的な問題解決において優れた性能を発揮します。今後の研究は、長期的な推論を実現するためのRLとエージェントの統合に焦点を当て、人工汎用知能（AGI）への道を切り開きます。