Qwen VLo : Un modèle multimodal unifié qui comprend et crée des images

2025-06-28
Qwen VLo : Un modèle multimodal unifié qui comprend et crée des images

Alibaba DAMO Academy présente Qwen VLo, un nouveau modèle multimodal qui non seulement comprend le contenu des images, mais génère également des images de haute qualité basées sur cette compréhension. Utilisant une méthode de génération progressive, il construit les images graduellement de gauche à droite et de haut en bas, assurant un résultat final cohérent et harmonieux. Qwen VLo prend en charge les instructions multilingues, gère des tâches complexes telles que l'édition d'images et le transfert de style, et peut même comprendre le contenu de ses propres images générées. Bien qu'il soit actuellement en version préliminaire, ses puissantes capacités multimodales montrent l'immense potentiel de l'IA dans la génération d'images.