DeepSeek R1:複雑な推論タスクでOpenAIに挑むオープンソースモデル
2025-01-31

DeepSeek R1は、複雑な推論タスクにおいてOpenAIのモデルに挑戦するオープンソースモデルです。グループ相対方策最適化(GRPO)と強化学習に焦点を当てた多段階トレーニングアプローチを用いており、モデルだけでなく、その開発の詳細を説明した研究論文も公開されました。論文では、トレーニング中にモデルが人間のフィードバックなしに、初期アプローチを再評価することで問題に多くの思考時間を割り当てることを学んだ「ひらめき」の瞬間について説明しています。このブログ記事では、GRPOとカウントダウンゲームを使用してこの「ひらめき」の瞬間を再現し、自己検証と検索能力を学ぶオープンモデルをトレーニングします。GRPOとTRLの学習を容易にするため、インタラクティブなJupyter Notebookコード、マルチGPUノードまたはSLURMクラスタでの分散トレーニングのためのスクリプトと手順を提供しています。
AI