Deepseek v3: Modelo LLM de código aberto com 607B de parâmetros supera GPT-4 a uma fração do custo?

2025-01-02

A Deepseek revelou seu modelo principal, o v3, um modelo Mixture-of-Experts com 607 bilhões de parâmetros e 37 bilhões de parâmetros ativos. Os testes mostraram que ele é competitivo e, em alguns casos, supera o GPT-4o da OpenAI e o Claude 3.5 Sonnet, tornando-se o melhor modelo de código aberto atual, superando o Llama 3.1 403b, Qwen e Mistral. Surpreendentemente, o Deepseek v3 atingiu esse desempenho por apenas cerca de US$ 6 milhões, utilizando engenharia inovadora: arquitetura MoE, treinamento de precisão mista FP8 e uma estrutura HAI-LLM personalizada. Ele se destaca em raciocínio e matemática, superando até mesmo o GPT-4 e o Claude 3.5 Sonnet, embora seja ligeiramente inferior em escrita e codificação. Sua excepcional relação custo-benefício o torna uma opção atraente para desenvolvedores que constroem aplicativos de IA voltados para o cliente.