De Rayas Aleatorias a Dígitos Reconocibles: Construyendo un Modelo de Generación de Imágenes Autorregresivo

2025-06-08
De Rayas Aleatorias a Dígitos Reconocibles: Construyendo un Modelo de Generación de Imágenes Autorregresivo

Este artículo detalla la construcción de un modelo básico de generación de imágenes autorregresivo usando una Perceptrón Multicapa (MLP) para generar imágenes de dígitos manuscritos. El autor explica el concepto central de predecir el siguiente píxel basándose en sus predecesores. Se construyen tres modelos progresivamente: el Modelo V1 usa codificación one-hot e ignora la información espacial; el Modelo V2 introduce codificaciones posicionales, mejorando la estructura de la imagen; el Modelo V3 usa incrustaciones de tokens aprendidas y codificaciones posicionales, logrando generación condicional, generando imágenes basadas en una clase de dígitos dada. Aunque las imágenes generadas no alcanzan la calidad de los modelos de última generación, el tutorial demuestra claramente los conceptos autorregresivos centrales y el proceso de construcción, proporcionando información valiosa sobre IA generativa.