Die kürzlich von Google und OpenAI veröffentlichten Fähigkeiten zur multimodalen Bildgenerierung markieren eine Revolution im Bereich der KI-Bildgenerierung. Anders als bei früheren Methoden, die Textaufforderungen an separate Bildgenerierungswerkzeuge schickten, steuern multimodale Modelle den Bildgenerierungsprozess direkt, indem sie Bilder Token für Token erstellen, ähnlich wie LLMs Text generieren. Dies ermöglicht es der KI, präzisere und beeindruckendere Bilder zu generieren und basierend auf dem Feedback des Benutzers zu iterieren. Der Artikel zeigt die leistungsstarken Fähigkeiten multimodaler Modelle anhand verschiedener Beispiele, wie der Generierung von Infografiken, der Änderung von Bilddetails und sogar der Erstellung von virtuellen Produktwerbungen. Er hebt jedoch auch Herausforderungen hervor, darunter Urheberrechts- und ethische Bedenken sowie das potenzielle Missbrauchsrisiko, wie z. B. Deepfakes. Letztendlich ist der Autor der Meinung, dass multimodale KI die Landschaft der visuellen Gestaltung grundlegend verändern wird, und wir müssen sorgfältig überlegen, wie wir diesen Wandel lenken können, um eine gesunde Entwicklung zu gewährleisten.