Entraîner des modèles de diffusion à grande échelle avec un micro-budget : 1890 $

2025-01-16
Entraîner des modèles de diffusion à grande échelle avec un micro-budget : 1890 $

Sony Research a publié en open source micro_diffusion, démontrant comment entraîner des modèles de diffusion à grande échelle avec un budget extrêmement faible (1890 $). Utilisant 37 millions d'images réelles et synthétiques publiques, ils ont entraîné un modèle Transformer sparse de 1,16 milliard de paramètres, atteignant un score FID de 12,7 sur la génération zero-shot du jeu de données COCO. Le projet fournit le code d'entraînement, le code du jeu de données, les poids des modèles pré-entraînés et détaille un processus d'entraînement par étapes, incluant un entraînement progressif de basse à haute résolution et l'utilisation du masquage par patch pour réduire les coûts d'entraînement et améliorer l'efficacité.