DeepSeek-R1:強化学習によるLLMの推論能力向上
2025-01-25

DeepSeek-AIは、第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を発表しました。DeepSeek-R1-Zeroは、事前段階での教師あり微調整(SFT)なしで大規模強化学習(RL)によって訓練されたモデルであり、驚くべき推論能力を示しています。RLを通じて、DeepSeek-R1-Zeroは自然に多くの強力で興味深い推論行動を獲得しました。しかし、可読性の低さや言語の混在といった課題にも直面しています。これらの問題に対処し、推論性能をさらに向上させるため、RLの前に複数段階の訓練とコールドスタートデータを取り入れたDeepSeek-R1を発表しました。DeepSeek-R1は、OpenAIのモデルと同等の性能を推論タスクで達成しています。研究コミュニティを支援するため、DeepSeek-R1-Zero、DeepSeek-R1、そしてQwenとLlamaをベースに蒸留された6つの異なるサイズの密なモデル(1.5B、7B、8B、14B、32B、70B)をオープンソース化します。
AI