DeepSeek-VL2: Modelos de Linguagem e Visão Baseados em Mistura de Especialistas

2025-01-01

DeepSeek-VL2 é uma série avançada de grandes modelos de linguagem e visão baseados em Mistura de Especialistas (MoE) que melhoram significativamente seu antecessor. Ele se destaca em várias tarefas, incluindo resposta a perguntas visuais, reconhecimento óptico de caracteres e compreensão de documentos/tabelas/gráficos. A série é composta por três variantes: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small e DeepSeek-VL2, com 1,0B, 2,8B e 4,5B de parâmetros ativados, respectivamente. DeepSeek-VL2 atinge desempenho competitivo ou de ponta com parâmetros ativados semelhantes ou menores em comparação com modelos de código aberto existentes. O projeto é de código aberto, oferecendo downloads de modelos, guias de início rápido e exemplos de demonstração.