Construindo um LLM do Zero: Um mergulho profundo na Atenção própria

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-03-05

Esta postagem do blog, a oitava em uma série que documenta a jornada do autor através do livro "Construa um Modelo de Linguagem Ampla (do Zero)" de Sebastian Raschka, concentra-se na implementação da atenção própria com pesos treináveis. Começa revisando as etapas envolvidas em LLMs transformadores somente decodificadores do estilo GPT, incluindo embeddings de tokens e de posição, autoatenção, normalização de pontuações de atenção e geração de vetores de contexto. O cerne da postagem aprofunda-se na atenção de produto escalar dimensionada, explicando como as matrizes de pesos treináveis projetam embeddings de entrada em diferentes espaços (consulta, chave, valor). A multiplicação de matrizes é usada para computação eficiente. O autor fornece uma explicação clara e mecanicista do processo, concluindo com uma prévia dos tópicos futuros: autoatenção causal e atenção multi-cabeça.