DeepSeek-R1:推論可能なオープンソースLLM

2025-01-27
DeepSeek-R1:推論可能なオープンソースLLM

DeepSeek-R1は、高度な推論能力を備えた最先端の大規模言語モデル(LLM)です。単に次の単語を予測するのではなく、問題を体系的に解決するために「思考トークン」を生成します。そのトレーニングは3つの段階に分かれています。まず、大量のデータセットで基本モデルをトレーニングします。次に、専門の推論モデルによって生成された60万件の長鎖思考推論サンプルを使用して、教師ありファインチューニングを行います。最後に、強化学習によって推論タスクと非推論タスクの両方の性能を向上させます。DeepSeek-R1の成功は、高品質の基本モデルと自動検証可能な推論タスクを組み合わせることで、ラベル付きデータへの依存を大幅に削減できることを示しており、将来のLLMの発展への道を開きます。

AI