Mejorando la generación de imágenes de OpenAI con IA: Un experimento de refinamiento iterativo

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-05-21

Este artículo describe un experimento que utiliza Modelos de Lenguaje Grandes (LLMs) para mejorar iterativamente la calidad de las imágenes generadas por la API de OpenAI. Comenzando con un prompt complejo, los investigadores descubrieron que las imágenes resultantes presentaban texto borroso y un atractivo visual débil. Se probaron dos enfoques: Primero, usar un LLM como un 'juez' para identificar y corregir iterativamente los defectos de la imagen, pero esto resultó ineficaz, ya que el LLM tuvo dificultades para manejar simultáneamente tareas creativas y técnicas. Segundo, usar el LLM para generar cuadros delimitadores alrededor del texto borroso para la edición dirigida, pero el LLM tuvo problemas con la localización precisa. Finalmente, separar la mejora de la claridad del texto del perfeccionamiento de la calidad general de la imagen produjo mejores resultados.