TarFlow : Les flux normalisateurs basés sur les Transformers atteignent l’état de l’art en estimation de vraisemblance d’images
Les chercheurs présentent TarFlow, un nouveau modèle de flux normalisateur qui exploite les Transformers et les flux autorégressifs masqués. TarFlow estime la densité et génère des images efficacement en traitant des patchs d’images avec des blocs de Transformer autorégressifs, en alternant la direction de l’autorégression entre les couches. Trois techniques clés améliorent la qualité des échantillons : l’augmentation du bruit gaussien pendant l’entraînement, une procédure de débruitage après l’entraînement et une méthode de guidage efficace pour les configurations conditionnelles et inconditionnelles de classes. TarFlow obtient des résultats de pointe en estimation de vraisemblance d’images, surpassant largement les méthodes précédentes et générant des échantillons d’une qualité et d’une diversité comparables aux modèles de diffusion, pour la première fois avec un modèle de flux normalisateur autonome.