Qwen VLo: Ein einheitliches multimodales Modell, das Bilder versteht und erstellt

2025-06-28
Qwen VLo: Ein einheitliches multimodales Modell, das Bilder versteht und erstellt

Alibaba DAMO Academy stellt Qwen VLo vor, ein neues multimodales Modell, das nicht nur den Inhalt von Bildern versteht, sondern auch auf dieser Grundlage hochwertige Bilder generiert. Es verwendet eine progressive Generierungsmethode, die Bilder schrittweise von links nach rechts und von oben nach unten erstellt und so ein kohärentes und harmonisches Endergebnis gewährleistet. Qwen VLo unterstützt mehrsprachige Anweisungen, bewältigt komplexe Aufgaben wie Bildbearbeitung und Stilübertragung und kann sogar den Inhalt seiner selbst generierten Bilder verstehen. Obwohl es sich derzeit in der Vorschauphase befindet, zeigen seine leistungsstarken multimodalen Fähigkeiten das immense Potenzial von KI in der Bilderzeugung.