TarFlow: Transformer-basierte Normalisierungsflüsse erreichen State-of-the-Art in der Bildwahrscheinlichkeitsabschätzung
Forscher stellen TarFlow vor, ein neues Normalisierungsflussmodell, das Transformer und maskierte autoregressive Flüsse nutzt. TarFlow schätzt die Dichte und generiert Bilder effizient, indem es Bildpatches mit autoregressiven Transformer-Blöcken verarbeitet und die Autoregressionsrichtung zwischen den Schichten abwechselt. Drei Schlüsseltechniken verbessern die Qualität der Stichproben: Gaußsches Rauschen während des Trainings, ein Entrauschungsverfahren nach dem Training und eine effektive Führungsmethode für sowohl klassenbedingte als auch unbedingte Einstellungen. TarFlow erzielt State-of-the-Art-Ergebnisse bei der Bildwahrscheinlichkeitsabschätzung, übertrifft deutlich vorherige Methoden und erzeugt Stichproben mit einer Qualität und Vielfalt, die mit Diffusionsmodellen vergleichbar sind – erstmals bei einem eigenständigen Normalisierungsflussmodell.