Treinamento de Modelos de Difusão em Grande Escala com Orçamento Mínimo: US$ 1890

2025-01-16
Treinamento de Modelos de Difusão em Grande Escala com Orçamento Mínimo: US$ 1890

A Sony Research lançou o micro_diffusion, um projeto de código aberto que demonstra como treinar modelos de difusão em larga escala com um orçamento extremamente baixo (US$ 1890). Usando 37 milhões de imagens reais e sintéticas publicamente disponíveis, eles treinaram um modelo Transformer esparso com 1,16 bilhão de parâmetros, alcançando uma pontuação FID de 12,7 na geração zero-shot no conjunto de dados COCO. O projeto fornece o código de treinamento, o código do conjunto de dados, pesos de modelos pré-treinados e detalha um processo de treinamento em etapas, incluindo treinamento progressivo de baixa para alta resolução e o uso de mascaramento de patches para reduzir os custos de treinamento e melhorar a eficiência.