Améliorer la génération d'images OpenAI avec l'IA : une expérience de raffinement itératif

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-05-21

Cet article détaille une expérience utilisant des grands modèles de langage (LLM) pour améliorer itérativement la qualité des images générées par l'API OpenAI. En commençant par une invite complexe, les chercheurs ont constaté que les images résultantes souffraient d'un texte flou et d'un faible attrait visuel. Deux approches ont été testées : premièrement, l'utilisation d'un LLM comme « juge » pour identifier et corriger itérativement les défauts de l'image, mais cela s'est avéré inefficace car le LLM a eu du mal à gérer simultanément des tâches créatives et techniques. Deuxièmement, l'utilisation du LLM pour générer des boîtes englobantes autour du texte flou pour une édition ciblée, mais le LLM a eu des difficultés avec la localisation précise. Enfin, séparer l'amélioration de la clarté du texte de l'amélioration de la qualité globale de l'image a donné de meilleurs résultats.