Deepseek v3:607B参数的开源LLM巨头,以低成本超越GPT-4?

2025-01-02
Deepseek v3:607B参数的开源LLM巨头,以低成本超越GPT-4?

Deepseek发布了其旗舰模型v3,这是一个拥有6070亿参数的混合专家模型,其中370亿参数处于活跃状态。该模型在基准测试中与OpenAI GPT-4o和Claude 3.5 Sonnet不相上下,甚至在某些任务上表现更好,成为目前最佳的开源模型,超越了Llama 3.1 403b、Qwen和Mistral。Deepseek v3的训练成本仅为600万美元,却取得了令人瞩目的性能,这得益于其突破性的工程技术:混合专家架构、FP8混合精度训练和定制的HAI-LLM框架。在推理和数学方面,它甚至超越了GPT-4和Claude 3.5 Sonnet,但在写作和编码方面略逊一筹。其性价比极高,对于希望部署面向用户的AI应用程序的开发者来说,是一个极具吸引力的选择。