Diffusionsmodelle: Die unbesungenen Helden der KI-Bildgenerierung
Im Gegensatz zu Transformer-basierten Sprachmodellen erzeugen Diffusionsmodelle Bilder, indem sie schrittweise Rauschen aus einem verrauschten Bild entfernen. Das Training besteht darin, dem Modell beizubringen, hinzugefügtes Rauschen zu identifizieren, sodass es schließlich Bilder aus purem Rauschen generieren kann. Dies ähnelt der Bildhauerei, bei der ein grober Stein nach und nach zu einem Meisterwerk veredelt wird. Obwohl sie für Text noch in den Kinderschuhen stecken, versprechen Diffusionsmodelle großes Potenzial in der Bild- und Videogenerierung, wie OpenAIs Sora und Googles VEO zeigen. Der Kern liegt darin, wie sie die Beziehung zwischen Rauschen und Daten modellieren, ein deutlicher Gegensatz zum Fokus der Transformer auf die Sprachstruktur.