DeepSeek-V3:6710億パラメーターのオープンソース混合専門家言語モデル
2024-12-26
DeepSeek-V3は、6710億パラメーターを持つ強力な混合専門家(MoE)言語モデルであり、トークンごとに370億パラメーターが活性化されます。マルチヘッド潜在的注意(MLA)とDeepSeekMoEアーキテクチャを採用し、補助損失のない負荷バランス戦略とマルチトークン予測トレーニング目標を革新的に導入しています。14.8兆の高品質トークンで事前トレーニングを行い、その後、教師ありファインチューニングと強化学習を行います。評価結果は、DeepSeek-V3が他のオープンソースモデルを上回り、主要なクローズドソースモデルと同等の性能を達成し、驚異的なトレーニング効率(わずか2.788M H800 GPU時間)を実現していることを示しています。
AI