DeepSeek-R1:教師なしファインチューニング不要の強化学習推論モデル

2025-01-20
DeepSeek-R1:教師なしファインチューニング不要の強化学習推論モデル

DeepSeekチームは、第一世代の推論モデルであるDeepSeek-R1と、蒸留されたモデルのスイートをオープンソース化しました。教師なしファインチューニング(SFT)を使用せずに大規模強化学習(RL)によってトレーニングされたDeepSeek-R1-Zeroは、優れた推論能力を示していますが、いくつかの欠点があります。DeepSeek-R1は、RLの前にコールドスタートデータを取り入れることでこれらの問題に対処し、OpenAI-o1と同等の性能を達成しています。LlamaとQwenに基づいた6つの蒸留モデルもオープンソース化されており、DeepSeek-R1-Distill-Qwen-32Bは、さまざまなベンチマークでOpenAI-o1-miniを上回っています。このプロジェクトは商用利用をサポートしており、オンラインチャットウェブサイトとOpenAI互換APIを提供しています。

AI