DeepSeek-R1:強化学習で訓練された推論モデルとその蒸留版
2025-01-20
DeepSeekは、第一世代の推論モデルDeepSeek-R1を発表しました。大規模な強化学習によって訓練され、教師ありファインチューニングを必要としないDeepSeek-R1は、前身であるDeepSeek-R1-Zeroに見られた無限ループや可読性の低さといった問題を、RLの前にコールドスタートデータを取り入れることで解決しています。DeepSeek-R1は、様々なベンチマークでOpenAI-o1と同等の性能を達成しています。さらに、DeepSeekはDeepSeek-R1と、LlamaおよびQwenベースの6つの蒸留モデルをオープンソース化しました。DeepSeek-R1-Distill-Qwen-32Bは、複数のベンチマークでOpenAI-o1-miniを上回り、蒸留モデルにおいて新たな最先端の結果を達成しています。これらのモデルは、使いやすいAPIとチャットインターフェースと共にHugging Faceで公開されています。
AI
モデル蒸留