Open-R1：DeepSeek-R1推論モデルのオープンソース再現

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

Open-R1：DeepSeek-R1推論モデルのオープンソース再現

2025-01-28

DeepSeek-R1モデルの驚異的な推論能力はAIコミュニティを魅了しましたが、そのトレーニングの詳細は明らかにされていません。Open-R1プロジェクトは、データセットとトレーニングパイプラインを含め、DeepSeek-R1を完全にオープンソースで再現することを目指しています。これには、DeepSeek-R1から高品質の推論データセットを蒸留し、純粋な強化学習トレーニングプロセスを再現し、多段階トレーニング方法を探求することが含まれます。最終目標は、透明性が高く再現可能な推論モデルを作成し、オープンソースコミュニティの発展を促進することです。

(huggingface.co)

強化学習アルゴリズム：包括的なガイド

死後1年以上も遺体が動く、研究で判明