Qwen2.5-VL-32B: Modelo de linguagem visual de 32 bilhões de parâmetros mais alinhado com preferências humanas

2025-03-24
Qwen2.5-VL-32B: Modelo de linguagem visual de 32 bilhões de parâmetros mais alinhado com preferências humanas

Após o grande sucesso da série de modelos Qwen2.5-VL, lançamos o novo modelo de linguagem visual de 32 bilhões de parâmetros, Qwen2.5-VL-32B-Instruct, de código aberto. Este modelo apresenta melhorias significativas em raciocínio matemático, compreensão de imagem de grão fino e alinhamento com preferências humanas. Os testes de referência mostram sua superioridade sobre modelos comparáveis em tarefas multimodais (como MMMU, MMMU-Pro e MathVista), superando até mesmo o modelo Qwen2-VL-72B-Instruct, de 72 bilhões de parâmetros. Também alcança desempenho de ponta em capacidades de texto puro em sua escala.