Entrenando Modelos de Difusión a Gran Escala con un Presupuesto Mínimo: $1890
Sony Research ha lanzado micro_diffusion, un proyecto de código abierto que muestra cómo entrenar modelos de difusión a gran escala con un presupuesto extremadamente bajo ($1890). Utilizando 37 millones de imágenes reales y sintéticas disponibles públicamente, entrenaron un modelo Transformer disperso con 1.160 millones de parámetros, logrando una puntuación FID de 12.7 en generación zero-shot en el conjunto de datos COCO. El proyecto proporciona el código de entrenamiento, el código del conjunto de datos, pesos de modelos preentrenados y detalla un proceso de entrenamiento por etapas, incluyendo entrenamiento progresivo de baja a alta resolución y el uso de enmascaramiento de parches para reducir los costos de entrenamiento y mejorar la eficiencia.