Des stries aléatoires aux chiffres reconnaissables : construction d'un modèle génératif d'images autorégressif

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-06-08

Cet article détaille la construction d'un modèle de génération d'images autorégressif basique utilisant un perceptron multicouche (MLP) pour générer des images de chiffres manuscrits. L'auteur explique le concept central de prédiction du pixel suivant en se basant sur ses prédécesseurs. Trois modèles sont construits progressivement : le Modèle V1 utilise un encodage one-hot et ignore les informations spatiales ; le Modèle V2 introduit des encodages positionnels, améliorant la structure de l'image ; le Modèle V3 utilise des embeddings de jetons appris et des encodages positionnels, atteignant une génération conditionnelle, générant des images basées sur une classe de chiffres donnée. Bien que les images générées soient inférieures aux modèles de pointe, le tutoriel démontre clairement les concepts autorégressifs fondamentaux et le processus de construction, fournissant des informations précieuses sur l'IA générative.