Qwen VLo : Un modèle multimodal unifié qui comprend et crée des images

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-06-28

Alibaba DAMO Academy présente Qwen VLo, un nouveau modèle multimodal qui non seulement comprend le contenu des images, mais génère également des images de haute qualité basées sur cette compréhension. Utilisant une méthode de génération progressive, il construit les images graduellement de gauche à droite et de haut en bas, assurant un résultat final cohérent et harmonieux. Qwen VLo prend en charge les instructions multilingues, gère des tâches complexes telles que l'édition d'images et le transfert de style, et peut même comprendre le contenu de ses propres images générées. Bien qu'il soit actuellement en version préliminaire, ses puissantes capacités multimodales montrent l'immense potentiel de l'IA dans la génération d'images.