Qwen VLo: Un Modelo Multimodal Unificado que Entiende y Crea Imágenes
2025-06-28
Alibaba DAMO Academy presenta Qwen VLo, un nuevo modelo multimodal que no solo entiende el contenido de las imágenes, sino que también genera imágenes de alta calidad basadas en esa comprensión. Empleando un método de generación progresivo, construye imágenes gradualmente de izquierda a derecha y de arriba a abajo, asegurando un resultado final coherente y armonioso. Qwen VLo admite instrucciones multilingües, maneja tareas complejas como edición de imágenes y transferencia de estilo, e incluso puede comprender el contenido de sus propias imágenes generadas. Si bien actualmente se encuentra en versión preliminar, sus poderosas capacidades multimodales muestran el inmenso potencial de la IA en la generación de imágenes.
IA