Verbesserung der OpenAI-Bildgenerierung mit KI: Ein iteratives Verfeinerungsexperiment

2025-05-21

Dieser Artikel beschreibt ein Experiment, bei dem große Sprachmodelle (LLMs) verwendet wurden, um die Qualität von Bildern, die von der OpenAI-API generiert werden, iterativ zu verbessern. Ausgehend von einer komplexen Eingabeaufforderung stellten die Forscher fest, dass die resultierenden Bilder unter verschwommenem Text und schwachem visuellen Reiz litten. Zwei Ansätze wurden getestet: Erstens die Verwendung eines LLMs als „Richter“, um Bildfehler iterativ zu identifizieren und zu beheben, dies erwies sich jedoch als ineffektiv, da der LLM Schwierigkeiten hatte, gleichzeitig kreative und technische Aufgaben zu bewältigen. Zweitens die Verwendung des LLMs zur Generierung von Bounding Boxes um verschwommenen Text für eine gezielte Bearbeitung, doch der LLM hatte Probleme mit der genauen Lokalisierung. Schließlich führte die Trennung der Verbesserung der Textklarheit von der Verbesserung der Gesamtbildqualität zu besseren Ergebnissen.