Améliorer la génération d'images OpenAI avec l'IA : une expérience de raffinement itératif

2025-05-21

Cet article détaille une expérience utilisant des grands modèles de langage (LLM) pour améliorer itérativement la qualité des images générées par l'API OpenAI. En commençant par une invite complexe, les chercheurs ont constaté que les images résultantes souffraient d'un texte flou et d'un faible attrait visuel. Deux approches ont été testées : premièrement, l'utilisation d'un LLM comme « juge » pour identifier et corriger itérativement les défauts de l'image, mais cela s'est avéré inefficace car le LLM a eu du mal à gérer simultanément des tâches créatives et techniques. Deuxièmement, l'utilisation du LLM pour générer des boîtes englobantes autour du texte flou pour une édition ciblée, mais le LLM a eu des difficultés avec la localisation précise. Enfin, séparer l'amélioration de la clarté du texte de l'amélioration de la qualité globale de l'image a donné de meilleurs résultats.