Qwen2.5-VL-32B : Un modèle de langage visuel de 32 milliards de paramètres plus aligné sur les préférences humaines

2025-03-24
Qwen2.5-VL-32B : Un modèle de langage visuel de 32 milliards de paramètres plus aligné sur les préférences humaines

Suite au grand succès de la série de modèles Qwen2.5-VL, nous avons lancé le nouveau modèle de langage visuel de 32 milliards de paramètres, Qwen2.5-VL-32B-Instruct, en open source. Ce modèle présente des améliorations significatives en matière de raisonnement mathématique, de compréhension d'images granulaires et d'alignement sur les préférences humaines. Les benchmarks montrent sa supériorité sur les modèles comparables dans les tâches multimodales (telles que MMMU, MMMU-Pro et MathVista), surpassant même le modèle Qwen2-VL-72B-Instruct, de 72 milliards de paramètres. Il atteint également des performances de pointe dans les capacités de texte pur à son échelle.