DeepSeek-V3: Modelo de linguagem de mistura de especialistas de 671 bilhões de parâmetros

2024-12-26

DeepSeek-V3 é um poderoso modelo de linguagem de Mistura de Especialistas (MoE) com 671 bilhões de parâmetros, ativando 37 bilhões de parâmetros por token. Utilizando Atenção Latente Multi-cabeça (MLA) e a arquitetura DeepSeekMoE, ele inova com uma estratégia de balanceamento de carga sem perda auxiliar e um objetivo de treinamento de previsão multi-token. Pré-treinado em 14,8 trilhões de tokens de alta qualidade, seguido de ajuste fino supervisionado e aprendizado por reforço, o DeepSeek-V3 supera outros modelos de código aberto e atinge desempenho comparável a modelos fechados líderes, com notável eficiência de treinamento - apenas 2,788 milhões de horas de GPU H800.

IA