DeepSeek: Um Modelo de Linguagem de Código Aberto e Econômico que Desafia o ChatGPT

O DeepSeek, um modelo de linguagem grande (LLM) de código aberto desenvolvido por uma empresa chinesa de pesquisa em IA, está desafiando o ChatGPT com sua arquitetura única de Mistura de Especialistas (MoE). Sua eficiência vem da ativação apenas dos parâmetros necessários, resultando em velocidades mais rápidas e custos mais baixos. Recursos como atenção multi-cabeça e previsão multi-token permitem desempenho superior em conversas longas e raciocínio complexo. Apesar de preocupações sobre suas fontes de dados, a relação custo-benefício do DeepSeek e seu estilo de saída direto o tornam uma alternativa convincente ao ChatGPT.
Leia mais