Modèles de diffusion : les héros méconnus de la génération d’images par IA
Contrairement aux modèles de langage basés sur les transformateurs, les modèles de diffusion génèrent des images en supprimant progressivement le bruit d’une image bruitée. L’entraînement consiste à apprendre au modèle à identifier le bruit ajouté, lui permettant ainsi de générer des images à partir de bruit pur. Cela ressemble à la sculpture, en affinant progressivement un bloc de pierre brut pour en faire un chef-d’œuvre. Bien qu’encore balbutiant pour le texte, les modèles de diffusion sont très prometteurs pour la génération d’images et de vidéos, comme le montrent Sora d’OpenAI et VEO de Google. Le cœur du processus réside dans la façon dont il modélise la relation entre le bruit et les données, un contraste marqué avec l’accent mis par les transformateurs sur la structure du langage.