Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Deepseek v3：6070億パラメーターのオープンソースLLM、GPT-4を低コストで凌駕？

2025-01-02

Deepseekは、フラッグシップモデルであるv3を発表しました。これは、6070億パラメーターのMixture-of-Expertsモデルで、370億パラメーターがアクティブです。ベンチマークテストでは、OpenAIのGPT-4oやClaude 3.5 Sonnetと互角、場合によってはそれらを上回る性能を示し、Llama 3.1 403b、Qwen、Mistralを凌駕する現在の最上位オープンソースモデルとなっています。驚くべきことに、Deepseek v3はこの性能をわずか約600万ドルで実現しました。これは、MoEアーキテクチャ、FP8混合精度トレーニング、カスタムHAI-LLMフレームワークといった画期的なエンジニアリング技術によるものです。推論と数学においては、GPT-4やClaude 3.5 Sonnetを上回る性能を示していますが、ライティングやコーディングではやや劣ります。コストパフォーマンスが非常に高く、クライアント向けのAIアプリケーションを構築する開発者にとって魅力的な選択肢となります。

(composio.dev)

AI 混合専門家モデルオープンソースAI