Construindo um LLM do Zero: Um mergulho profundo na Atenção própria

2025-03-05
Construindo um LLM do Zero: Um mergulho profundo na Atenção própria

Esta postagem do blog, a oitava em uma série que documenta a jornada do autor através do livro "Construa um Modelo de Linguagem Ampla (do Zero)" de Sebastian Raschka, concentra-se na implementação da atenção própria com pesos treináveis. Começa revisando as etapas envolvidas em LLMs transformadores somente decodificadores do estilo GPT, incluindo embeddings de tokens e de posição, autoatenção, normalização de pontuações de atenção e geração de vetores de contexto. O cerne da postagem aprofunda-se na atenção de produto escalar dimensionada, explicando como as matrizes de pesos treináveis projetam embeddings de entrada em diferentes espaços (consulta, chave, valor). A multiplicação de matrizes é usada para computação eficiente. O autor fornece uma explicação clara e mecanicista do processo, concluindo com uma prévia dos tópicos futuros: autoatenção causal e atenção multi-cabeça.