DeepSeek-V3：6710億パラメーターのオープンソース混合専門家言語モデル

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2024-12-26

DeepSeek-V3は、6710億パラメーターを持つ強力な混合専門家（MoE）言語モデルであり、トークンごとに370億パラメーターが活性化されます。マルチヘッド潜在的注意（MLA）とDeepSeekMoEアーキテクチャを採用し、補助損失のない負荷バランス戦略とマルチトークン予測トレーニング目標を革新的に導入しています。14.8兆の高品質トークンで事前トレーニングを行い、その後、教師ありファインチューニングと強化学習を行います。評価結果は、DeepSeek-V3が他のオープンソースモデルを上回り、主要なクローズドソースモデルと同等の性能を達成し、驚異的なトレーニング効率（わずか2.788M H800 GPU時間）を実現していることを示しています。