Qwen2.5-VL-32B: Modelo de lenguaje visual de 32 mil millones de parámetros más alineado con las preferencias humanas

2025-03-24
Qwen2.5-VL-32B: Modelo de lenguaje visual de 32 mil millones de parámetros más alineado con las preferencias humanas

Tras el gran éxito de la serie de modelos Qwen2.5-VL, hemos lanzado el nuevo modelo de lenguaje visual de 32 mil millones de parámetros, Qwen2.5-VL-32B-Instruct, de código abierto. Este modelo presenta mejoras significativas en el razonamiento matemático, la comprensión de imágenes de grano fino y la alineación con las preferencias humanas. Las pruebas de referencia muestran su superioridad sobre modelos comparables en tareas multimodales (como MMMU, MMMU-Pro y MathVista), incluso superando al modelo Qwen2-VL-72B-Instruct, de 72 mil millones de parámetros. También alcanza un rendimiento de primera categoría en capacidades de texto puro a su escala.