Qwen VLo: Ein einheitliches multimodales Modell, das Bilder versteht und erstellt

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Qwen VLo: Ein einheitliches multimodales Modell, das Bilder versteht und erstellt

2025-06-28

Alibaba DAMO Academy stellt Qwen VLo vor, ein neues multimodales Modell, das nicht nur den Inhalt von Bildern versteht, sondern auch auf dieser Grundlage hochwertige Bilder generiert. Es verwendet eine progressive Generierungsmethode, die Bilder schrittweise von links nach rechts und von oben nach unten erstellt und so ein kohärentes und harmonisches Endergebnis gewährleistet. Qwen VLo unterstützt mehrsprachige Anweisungen, bewältigt komplexe Aufgaben wie Bildbearbeitung und Stilübertragung und kann sogar den Inhalt seiner selbst generierten Bilder verstehen. Obwohl es sich derzeit in der Vorschauphase befindet, zeigen seine leistungsstarken multimodalen Fähigkeiten das immense Potenzial von KI in der Bilderzeugung.

(qwenlm.github.io)

KI multimodales Modell

Mehrstufige Programmierung mit Splice-Variablen: Sichere und vorhersehbare Codegenerierung

NLnet fördert 62 Projekte zur Stärkung des offenen Internets