Llama 3 do Zero: Um Tutorial Detalhado do TensorFlow

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-02-21

Este projeto é uma versão aprimorada do naklecha/llama3-from-scratch, melhorado e otimizado para ajudar a entender os princípios de implementação e o processo de raciocínio detalhado do modelo Llama 3. As principais melhorias incluem: reorganização da apresentação do conteúdo, estrutura de diretório ajustada, anotações de código detalhadas, anotações completas de mudanças nas dimensões das matrizes, explicações e derivações abundantes de princípios, um capítulo adicional de derivação do KV-Cache e documentação bilíngue (chinês e inglês). O tutorial começa carregando arquivos de modelo e arquivos de configuração e, em seguida, orienta através da conversão de texto para incorporação, construção de blocos Transformer, implementação do mecanismo de atenção, codificação posicional (RoPE), normalização RMS, rede feed-forward SwiGLU e, finalmente, prevê o próximo token. Também explora previsões top-k, o impacto de diferentes incorporações de tokens e os princípios e vantagens do mecanismo de cache KV.

Desenvolvimento