Von zufälligen Streifen zu erkennbaren Ziffern: Aufbau eines autoregressiven Modells zur Bilderzeugung

2025-06-08
Von zufälligen Streifen zu erkennbaren Ziffern: Aufbau eines autoregressiven Modells zur Bilderzeugung

Dieser Artikel beschreibt den Aufbau eines einfachen autoregressiven Modells zur Bilderzeugung, das ein mehrschichtiges Perzeptron (MLP) verwendet, um Bilder von handgeschriebenen Ziffern zu generieren. Der Autor erklärt das Kernkonzept, den nächsten Pixel basierend auf seinen Vorgängern vorherzusagen. Drei Modelle werden schrittweise aufgebaut: Modell V1 verwendet One-Hot-Kodierung und ignoriert räumliche Informationen; Modell V2 führt Positionskodierungen ein, wodurch die Bildstruktur verbessert wird; Modell V3 verwendet gelernte Token-Einbettungen und Positionskodierungen und erreicht bedingte Generierung, wobei Bilder basierend auf einer gegebenen Ziffernklasse generiert werden. Obwohl die generierten Bilder hinter den modernsten Modellen zurückbleiben, zeigt das Tutorial deutlich die zentralen autoregressiven Konzepte und den Aufbauprozess und liefert wertvolle Einblicke in die generative KI.

KI