Qwen2.5-VL-32B:更懂人意的320亿参数视觉语言模型

2025-03-24
Qwen2.5-VL-32B:更懂人意的320亿参数视觉语言模型

在Qwen2.5-VL系列模型广受好评后,我们开源了全新320亿参数的视觉语言模型Qwen2.5-VL-32B-Instruct,它在数学推理、细粒度图像理解和遵循人类偏好方面有了显著提升。基准测试显示,它在多模态任务(如MMMU、MMMU-Pro和MathVista)上超越了同等规模的模型,甚至优于720亿参数的Qwen2-VL-72B-Instruct。该模型在文本理解能力上也达到了同等规模的顶尖水平。

AI