Apple fordert Diffusionsmodelle heraus: Durchbruch bei der Bilderzeugung mit Normalisierungsflüssen
Apple veröffentlichte zwei Artikel, die das Potenzial einer vergessenen Technik zur Bilderzeugung aufzeigen: Normalisierungsflüsse. Ihre neuen Modelle, TarFlow und STARFlow, nutzen Transformer, um signifikante Fortschritte in Bezug auf Bildqualität und Effizienz zu erzielen. Im Gegensatz zu OpenAIs GPT-4o, das Bilder Token für Token generiert, erzeugen Apples Modelle Pixelwerte direkt oder über einen Komprimierungs-Dekomprimierungsprozess. Dadurch wird Informationsverlust durch Tokenisierung vermieden und eine bessere Kontrolle über Bilddetails ermöglicht. STARFlow geht noch weiter, indem es latente Raumgenerierung verwendet und ein leichtgewichtiges Sprachmodell integriert, wodurch es besser für mobile Geräte geeignet ist. Dies markiert eine neue Richtung in der Bilderzeugung und stellt die Dominanz von Diffusionsmodellen in Frage.