Construindo LLMs do Zero: Vetores, Matrizes e Espaços de Alta Dimensão

2025-09-06
Construindo LLMs do Zero: Vetores, Matrizes e Espaços de Alta Dimensão

Este artigo, o segundo de uma série de três partes, desmistifica o funcionamento dos Modelos de Linguagem Ampla (LLMs) para leitores com inclinação técnica e conhecimento limitado de IA. Baseando-se na parte 19 de uma série baseada no livro de Sebastian Raschka "Construa um Modelo de Linguagem Ampla (do Zero)", ele explica o uso de vetores, matrizes e espaços de alta dimensão (espaço de vocabulário e espaço de incorporação) dentro de LLMs. O autor argumenta que a compreensão da inferência LLM requer apenas matemática do nível do ensino médio, enquanto o treinamento requer matemática mais avançada. O artigo detalha como os vetores representam significado em espaços de alta dimensão e como a multiplicação de matrizes projeta entre esses espaços, conectando isso a camadas lineares em redes neurais.

Leia mais

Construindo um LLM do Zero: Desvendando o Mistério da Atenção

2025-05-11
Construindo um LLM do Zero: Desvendando o Mistério da Atenção

Esta postagem mergulha no funcionamento interno do mecanismo de autoatenção em grandes modelos de linguagem. O autor analisa a atenção multi-cabeça e os mecanismos em camadas, explicando como multiplicações de matrizes aparentemente simples alcançam funcionalidades complexas. A ideia central é que cabeças de atenção individuais são simples, mas por meio da atenção multi-cabeça e camadas, são construídas representações complexas e ricas. Isso é análogo à forma como as redes neurais convolucionais extraem recursos camada por camada, alcançando, em última análise, uma compreensão profunda da sequência de entrada. Além disso, a postagem explica como os mecanismos de atenção resolvem o problema inerente de gargalo de comprimento fixo dos modelos RNN e usa exemplos para ilustrar os papéis dos espaços de consulta, chave e valor no mecanismo de atenção.

Leia mais

Construindo um LLM do Zero: Um mergulho profundo no Dropout

2025-03-20
Construindo um LLM do Zero: Um mergulho profundo no Dropout

Este post documenta a jornada do autor pelo capítulo de dropout do livro de Sebastian Raschka "Construa um Modelo de Linguagem Grande (do Zero)". Dropout é uma técnica de regularização que previne o overfitting ignorando aleatoriamente alguns neurônios ou pesos durante o treinamento, espalhando assim o conhecimento mais amplamente pelo modelo. O autor detalha a implementação do dropout e explora nuances de sua aplicação em LLMs, como aplicar dropout em pesos de atenção ou vetores de valor, e rebalancear a matriz resultante. O post também aborda escolhas práticas de taxa de dropout e os desafios de lidar com tensores de ordem superior para processamento de lotes, preparando o cenário para aprendizado futuro.

Leia mais
Desenvolvimento

Construindo um LLM do Zero: Um mergulho profundo na Atenção própria

2025-03-05
Construindo um LLM do Zero: Um mergulho profundo na Atenção própria

Esta postagem do blog, a oitava em uma série que documenta a jornada do autor através do livro "Construa um Modelo de Linguagem Ampla (do Zero)" de Sebastian Raschka, concentra-se na implementação da atenção própria com pesos treináveis. Começa revisando as etapas envolvidas em LLMs transformadores somente decodificadores do estilo GPT, incluindo embeddings de tokens e de posição, autoatenção, normalização de pontuações de atenção e geração de vetores de contexto. O cerne da postagem aprofunda-se na atenção de produto escalar dimensionada, explicando como as matrizes de pesos treináveis projetam embeddings de entrada em diferentes espaços (consulta, chave, valor). A multiplicação de matrizes é usada para computação eficiente. O autor fornece uma explicação clara e mecanicista do processo, concluindo com uma prévia dos tópicos futuros: autoatenção causal e atenção multi-cabeça.

Leia mais

Blogs ainda são relevantes na era da IA?

2025-02-25
Blogs ainda são relevantes na era da IA?

Este artigo explora o valor do blogging na era do ChatGPT e outras ferramentas de IA. Embora a IA possa acessar e sintetizar informações facilmente, o blogging continua valioso: solidifica o conhecimento próprio, ajuda outras pessoas, constrói uma marca pessoal (embora isso seja difícil de alcançar apenas com blogs), proporciona uma sensação de realização e constrói um portfólio de escrita mostrando habilidades de pensamento, beneficiando o desenvolvimento profissional. O autor argumenta que o principal impacto da IA ​​no blogging é reduzir a sensação de realização da interação com o leitor, mas isso não nega o valor geral do blogging.

Leia mais
Desenvolvimento

Retrospectiva do Blogueiro: O Valor das Postagens de Aprendizagem em Imersão

2025-02-24
Retrospectiva do Blogueiro: O Valor das Postagens de Aprendizagem em Imersão

Um blogueiro, enquanto se recuperava de uma doença menor, revisou suas postagens anteriores e descobriu que as mais populares seguiam um padrão: aprender uma nova habilidade e resumí-la em um tutorial. Ele acredita que esse estilo de escrita não apenas solidifica seu próprio conhecimento, mas também ajuda os outros. Essas postagens de blog do tipo tutorial servem como os próprios recursos que o autor desejava que existissem quando estava aprendendo, oferecendo aos leitores guias de aprendizagem claros e aprofundados. No futuro, o autor planeja criar mais dessas "mergulhos profundos TIL", compartilhando sua jornada de aprendizagem.

Leia mais
Diversos tutoriais