Qwen VLo: Modelo Multimodal Unificado que Entende e Cria Imagens

2025-06-28
Qwen VLo: Modelo Multimodal Unificado que Entende e Cria Imagens

A Alibaba DAMO Academy apresenta o Qwen VLo, um novo modelo multimodal que não apenas entende o conteúdo de imagens, mas também gera imagens de alta qualidade com base nesse entendimento. Empregando um método de geração progressivo, ele constrói imagens gradualmente da esquerda para a direita e de cima para baixo, garantindo um resultado final coerente e harmonioso. O Qwen VLo suporta instruções multilíngues, lida com tarefas complexas como edição de imagens e transferência de estilo, e pode até entender o conteúdo de suas próprias imagens geradas. Embora esteja atualmente em versão de prévia, suas poderosas capacidades multimodais mostram o imenso potencial da IA na geração de imagens.