Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

DeepSeek-R1：強化学習で訓練された推論モデルとその蒸留版

2025-01-20

DeepSeekは、第一世代の推論モデルDeepSeek-R1を発表しました。大規模な強化学習によって訓練され、教師ありファインチューニングを必要としないDeepSeek-R1は、前身であるDeepSeek-R1-Zeroに見られた無限ループや可読性の低さといった問題を、RLの前にコールドスタートデータを取り入れることで解決しています。DeepSeek-R1は、様々なベンチマークでOpenAI-o1と同等の性能を達成しています。さらに、DeepSeekはDeepSeek-R1と、LlamaおよびQwenベースの6つの蒸留モデルをオープンソース化しました。DeepSeek-R1-Distill-Qwen-32Bは、複数のベンチマークでOpenAI-o1-miniを上回り、蒸留モデルにおいて新たな最先端の結果を達成しています。これらのモデルは、使いやすいAPIとチャットインターフェースと共にHugging Faceで公開されています。

(huggingface.co)

AI モデル蒸留