Training von großen Diffusionsmodellen mit kleinem Budget: 1890 $
2025-01-16
Sony Research hat micro_diffusion als Open-Source-Projekt veröffentlicht und zeigt, wie man große Diffusionsmodelle mit extrem geringem Budget (1890 $) trainieren kann. Mit 37 Millionen öffentlich verfügbaren realen und synthetischen Bildern trainierten sie ein Sparse-Transformer-Modell mit 1,16 Milliarden Parametern und erreichten einen FID-Score von 12,7 bei Zero-Shot-Generierung auf dem COCO-Datensatz. Das Projekt bietet Trainingscode, Datencode, vortrainierte Modellgewichte und beschreibt einen mehrstufigen Trainingsprozess, einschließlich progressiven Trainings von niedriger zu hoher Auflösung und Patch-Masking, um Trainingskosten zu senken und die Effizienz zu steigern.