Des stries aléatoires aux chiffres reconnaissables : construction d'un modèle génératif d'images autorégressif
Cet article détaille la construction d'un modèle de génération d'images autorégressif basique utilisant un perceptron multicouche (MLP) pour générer des images de chiffres manuscrits. L'auteur explique le concept central de prédiction du pixel suivant en se basant sur ses prédécesseurs. Trois modèles sont construits progressivement : le Modèle V1 utilise un encodage one-hot et ignore les informations spatiales ; le Modèle V2 introduit des encodages positionnels, améliorant la structure de l'image ; le Modèle V3 utilise des embeddings de jetons appris et des encodages positionnels, atteignant une génération conditionnelle, générant des images basées sur une classe de chiffres donnée. Bien que les images générées soient inférieures aux modèles de pointe, le tutoriel démontre clairement les concepts autorégressifs fondamentaux et le processus de construction, fournissant des informations précieuses sur l'IA générative.