Llama 3 do Zero: Um Tutorial Detalhado do TensorFlow
Este projeto é uma versão aprimorada do naklecha/llama3-from-scratch, melhorado e otimizado para ajudar a entender os princípios de implementação e o processo de raciocínio detalhado do modelo Llama 3. As principais melhorias incluem: reorganização da apresentação do conteúdo, estrutura de diretório ajustada, anotações de código detalhadas, anotações completas de mudanças nas dimensões das matrizes, explicações e derivações abundantes de princípios, um capítulo adicional de derivação do KV-Cache e documentação bilíngue (chinês e inglês). O tutorial começa carregando arquivos de modelo e arquivos de configuração e, em seguida, orienta através da conversão de texto para incorporação, construção de blocos Transformer, implementação do mecanismo de atenção, codificação posicional (RoPE), normalização RMS, rede feed-forward SwiGLU e, finalmente, prevê o próximo token. Também explora previsões top-k, o impacto de diferentes incorporações de tokens e os princípios e vantagens do mecanismo de cache KV.