Ein LLM von Grund auf bauen: Ein tiefer Einblick in die Selbstaufmerksamkeit
Dieser Blogbeitrag, der achte in einer Reihe, die die Reise des Autors durch Sebastian Raschkas "Build a Large Language Model (from Scratch)" dokumentiert, konzentriert sich auf die Implementierung von Selbstaufmerksamkeit mit trainierbaren Gewichten. Er beginnt mit einer Überprüfung der Schritte, die in GPT-artigen Decoder-only Transformer LLMs beteiligt sind, einschließlich Token- und Positions-Embeddings, Selbstaufmerksamkeit, Normalisierung von Aufmerksamkeitswerten und Generierung von Kontextvektoren. Der Kern des Beitrags befasst sich mit skalierter Skalarproduktauffmerksamkeit und erklärt, wie trainierbare Gewichtsmatrizen Eingabe-Embeddings in verschiedene Räume (Query, Key, Value) projizieren. Matrixmultiplikation wird für eine effiziente Berechnung verwendet. Der Autor liefert eine klare und mechanistische Erklärung des Prozesses und schließt mit einer Vorschau auf zukünftige Themen: kausale Selbstaufmerksamkeit und Multi-Head-Aufmerksamkeit.