Deepseek v3：607B参数的开源LLM巨头，以低成本超越GPT-4？

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

Deepseek v3：607B参数的开源LLM巨头，以低成本超越GPT-4？

2025-01-02

Deepseek发布了其旗舰模型v3，这是一个拥有6070亿参数的混合专家模型，其中370亿参数处于活跃状态。该模型在基准测试中与OpenAI GPT-4o和Claude 3.5 Sonnet不相上下，甚至在某些任务上表现更好，成为目前最佳的开源模型，超越了Llama 3.1 403b、Qwen和Mistral。Deepseek v3的训练成本仅为600万美元，却取得了令人瞩目的性能，这得益于其突破性的工程技术：混合专家架构、FP8混合精度训练和定制的HAI-LLM框架。在推理和数学方面，它甚至超越了GPT-4和Claude 3.5 Sonnet，但在写作和编码方面略逊一筹。其性价比极高，对于希望部署面向用户的AI应用程序的开发者来说，是一个极具吸引力的选择。

(composio.dev)

AI 混合专家模型

Connet：无需公网IP的P2P反向代理

YC孵化器公司Distro招聘业务拓展代表