Qwen VLo: Un Modelo Multimodal Unificado que Entiende y Crea Imágenes

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Qwen VLo: Un Modelo Multimodal Unificado que Entiende y Crea Imágenes

2025-06-28

Alibaba DAMO Academy presenta Qwen VLo, un nuevo modelo multimodal que no solo entiende el contenido de las imágenes, sino que también genera imágenes de alta calidad basadas en esa comprensión. Empleando un método de generación progresivo, construye imágenes gradualmente de izquierda a derecha y de arriba a abajo, asegurando un resultado final coherente y armonioso. Qwen VLo admite instrucciones multilingües, maneja tareas complejas como edición de imágenes y transferencia de estilo, e incluso puede comprender el contenido de sus propias imágenes generadas. Si bien actualmente se encuentra en versión preliminar, sus poderosas capacidades multimodales muestran el inmenso potencial de la IA en la generación de imágenes.

(qwenlm.github.io)

Programación Multietapa con Variables Splice: Generación de Código Segura y Predecible

NLnet financia 62 proyectos para impulsar la internet abierta