LLMs von Grund auf bauen: Vektoren, Matrizen und hochdimensionale Räume

2025-09-06
LLMs von Grund auf bauen: Vektoren, Matrizen und hochdimensionale Räume

Dieser Artikel, der zweite einer dreiteiligen Serie, enträtselt die Funktionsweise großer Sprachmodelle (LLMs) für technisch versierte Leser mit begrenztem KI-Wissen. Aufbauend auf Teil 19 einer Serie, die auf Sebastian Raschkas Buch "Build a Large Language Model (from Scratch)" basiert, erklärt er die Verwendung von Vektoren, Matrizen und hochdimensionalen Räumen (Vokabularraum und Einbettungsraum) in LLMs. Der Autor argumentiert, dass das Verständnis der LLM-Inferenz nur Mathematik auf Schulniveau erfordert, während das Training fortgeschrittenere Mathematik benötigt. Der Artikel beschreibt detailliert, wie Vektoren Bedeutung in hochdimensionalen Räumen repräsentieren und wie Matrixmultiplikation zwischen diesen Räumen projiziert, wobei dies mit linearen Schichten in neuronalen Netzen verbunden wird.

Mehr lesen
KI

Ein LLM von Grund auf bauen: Das Geheimnis der Aufmerksamkeit lüften

2025-05-11
Ein LLM von Grund auf bauen: Das Geheimnis der Aufmerksamkeit lüften

Dieser Beitrag taucht tief in die Funktionsweise des Selbstaufmerksamkeitsmechanismus in großen Sprachmodellen ein. Der Autor analysiert die Multi-Head-Aufmerksamkeit und die Schichtmechanismen und erklärt, wie scheinbar einfache Matrixmultiplikationen komplexe Funktionalitäten erreichen. Die Kernaussage ist: Einzelne Aufmerksamkeitsköpfe sind einfach, aber durch Multi-Head-Aufmerksamkeit und Schichtbildung werden komplexe und reiche Repräsentationen aufgebaut. Dies ist analog dazu, wie Convolutional Neural Networks (CNNs) Schicht für Schicht Merkmale extrahieren und letztendlich ein tiefes Verständnis der Eingabesequenz erreichen. Darüber hinaus erklärt der Beitrag, wie Aufmerksamkeitsmechanismen den inhärenten Engpass fester Länge von RNN-Modellen lösen, und verwendet Beispiele, um die Rollen von Query-, Key- und Value-Räumen im Aufmerksamkeitsmechanismus zu veranschaulichen.

Mehr lesen
KI

Ein LLM von Grund auf bauen: Ein tiefer Tauchgang in Dropout

2025-03-20
Ein LLM von Grund auf bauen: Ein tiefer Tauchgang in Dropout

Dieser Beitrag dokumentiert die Reise des Autors durch das Dropout-Kapitel in Sebastian Raschkas "Baue ein großes Sprachmodell (von Grund auf)". Dropout ist eine Regularisierungstechnik, die Überanpassung verhindert, indem sie während des Trainings zufällig einige Neuronen oder Gewichte ignoriert und so das Wissen breiter im Modell verteilt. Der Autor beschreibt detailliert die Implementierung von Dropout und untersucht Nuancen seiner Anwendung in LLMs, wie die Anwendung von Dropout auf Aufmerksamkeitsgewichte oder Wertvektoren und das Neugewichten der resultierenden Matrix. Der Beitrag behandelt auch praktische Entscheidungen zur Dropout-Rate und die Herausforderungen beim Umgang mit Tensoren höherer Ordnung für die Batch-Verarbeitung und bereitet den Weg für zukünftiges Lernen.

Mehr lesen
Entwicklung

Ein LLM von Grund auf bauen: Ein tiefer Einblick in die Selbstaufmerksamkeit

2025-03-05
Ein LLM von Grund auf bauen: Ein tiefer Einblick in die Selbstaufmerksamkeit

Dieser Blogbeitrag, der achte in einer Reihe, die die Reise des Autors durch Sebastian Raschkas "Build a Large Language Model (from Scratch)" dokumentiert, konzentriert sich auf die Implementierung von Selbstaufmerksamkeit mit trainierbaren Gewichten. Er beginnt mit einer Überprüfung der Schritte, die in GPT-artigen Decoder-only Transformer LLMs beteiligt sind, einschließlich Token- und Positions-Embeddings, Selbstaufmerksamkeit, Normalisierung von Aufmerksamkeitswerten und Generierung von Kontextvektoren. Der Kern des Beitrags befasst sich mit skalierter Skalarproduktauffmerksamkeit und erklärt, wie trainierbare Gewichtsmatrizen Eingabe-Embeddings in verschiedene Räume (Query, Key, Value) projizieren. Matrixmultiplikation wird für eine effiziente Berechnung verwendet. Der Autor liefert eine klare und mechanistische Erklärung des Prozesses und schließt mit einer Vorschau auf zukünftige Themen: kausale Selbstaufmerksamkeit und Multi-Head-Aufmerksamkeit.

Mehr lesen
KI

Sind Blogs im Zeitalter der KI noch relevant?

2025-02-25
Sind Blogs im Zeitalter der KI noch relevant?

Dieser Beitrag untersucht den Wert des Bloggens im Zeitalter von ChatGPT und anderen KI-Tools. Obwohl KI leicht auf Informationen zugreifen und diese synthetisieren kann, bleibt das Bloggen wertvoll: Es festigt das eigene Wissen, hilft anderen, baut eine persönliche Marke auf (obwohl dies allein durch Bloggen schwer zu erreichen ist), vermittelt ein Erfolgserlebnis und schafft ein Portfolio an Texten, das Denkfähigkeiten zeigt und die berufliche Entwicklung fördert. Der Autor argumentiert, dass die KI den Bloggen hauptsächlich dadurch beeinflusst, dass sie das Erfolgserlebnis durch Interaktion mit Lesern reduziert, aber dies den Gesamtwert des Bloggens nicht aufhebt.

Mehr lesen
Entwicklung

Blogger-Rückblick: Der Wert von Deep-Dive-Lernbeiträgen

2025-02-24
Blogger-Rückblick: Der Wert von Deep-Dive-Lernbeiträgen

Ein Blogger hat während seiner Genesung von einer leichten Krankheit seine alten Blogbeiträge überprüft und festgestellt, dass die beliebtesten einem Muster folgten: eine neue Fähigkeit zu erlernen und diese in einem Tutorial zusammenzufassen. Er glaubt, dass dieser Schreibstil nicht nur sein eigenes Wissen festigt, sondern auch anderen hilft. Diese Tutorial-artigen Blogbeiträge sind genau die Ressourcen, die sich der Autor gewünscht hätte, als er lernte, und bieten den Lesern klare und tiefgehende Lernleitfäden. Künftig plant der Autor, mehr dieser „TIL Deep Dives“ zu erstellen und seine Lernreise zu teilen.

Mehr lesen
Sonstiges Tutorials