DeepSeek-R1：教師なしファインチューニング不要の強化学習推論モデル

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-01-20

DeepSeekチームは、第一世代の推論モデルであるDeepSeek-R1と、蒸留されたモデルのスイートをオープンソース化しました。教師なしファインチューニング（SFT）を使用せずに大規模強化学習（RL）によってトレーニングされたDeepSeek-R1-Zeroは、優れた推論能力を示していますが、いくつかの欠点があります。DeepSeek-R1は、RLの前にコールドスタートデータを取り入れることでこれらの問題に対処し、OpenAI-o1と同等の性能を達成しています。LlamaとQwenに基づいた6つの蒸留モデルもオープンソース化されており、DeepSeek-R1-Distill-Qwen-32Bは、さまざまなベンチマークでOpenAI-o1-miniを上回っています。このプロジェクトは商用利用をサポートしており、オンラインチャットウェブサイトとOpenAI互換APIを提供しています。