DeepSeek-V3: Modelo de linguagem de mistura de especialistas de 671 bilhões de parâmetros

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

DeepSeek-V3: Modelo de linguagem de mistura de especialistas de 671 bilhões de parâmetros

2024-12-26

DeepSeek-V3 é um poderoso modelo de linguagem de Mistura de Especialistas (MoE) com 671 bilhões de parâmetros, ativando 37 bilhões de parâmetros por token. Utilizando Atenção Latente Multi-cabeça (MLA) e a arquitetura DeepSeekMoE, ele inova com uma estratégia de balanceamento de carga sem perda auxiliar e um objetivo de treinamento de previsão multi-token. Pré-treinado em 14,8 trilhões de tokens de alta qualidade, seguido de ajuste fino supervisionado e aprendizado por reforço, o DeepSeek-V3 supera outros modelos de código aberto e atinge desempenho comparável a modelos fechados líderes, com notável eficiência de treinamento - apenas 2,788 milhões de horas de GPU H800.

(github.com)

Conversão eficiente de UNORM e SNORM para ponto flutuante em hardware

Grupo de Trabalho HTML do W3C: Impulsionando a Evolução do Padrão HTML