Deepseek v3:6070億パラメーターのオープンソースLLM、GPT-4を低コストで凌駕?
2025-01-02
Deepseekは、フラッグシップモデルであるv3を発表しました。これは、6070億パラメーターのMixture-of-Expertsモデルで、370億パラメーターがアクティブです。ベンチマークテストでは、OpenAIのGPT-4oやClaude 3.5 Sonnetと互角、場合によってはそれらを上回る性能を示し、Llama 3.1 403b、Qwen、Mistralを凌駕する現在の最上位オープンソースモデルとなっています。驚くべきことに、Deepseek v3はこの性能をわずか約600万ドルで実現しました。これは、MoEアーキテクチャ、FP8混合精度トレーニング、カスタムHAI-LLMフレームワークといった画期的なエンジニアリング技術によるものです。推論と数学においては、GPT-4やClaude 3.5 Sonnetを上回る性能を示していますが、ライティングやコーディングではやや劣ります。コストパフォーマンスが非常に高く、クライアント向けのAIアプリケーションを構築する開発者にとって魅力的な選択肢となります。