Llama 3 from Scratch : Tutoriel TensorFlow approfondi

2025-02-21
Llama 3 from Scratch : Tutoriel TensorFlow approfondi

Ce projet est une version améliorée de naklecha/llama3-from-scratch, amélioré et optimisé pour aider à comprendre les principes de mise en œuvre et le processus de raisonnement détaillé du modèle Llama 3. Les améliorations principales incluent : une réorganisation de la présentation du contenu, une structure de répertoire ajustée, des annotations de code détaillées, des annotations complètes des changements de dimensions des matrices, des explications et des dérivations abondantes des principes, un chapitre supplémentaire de dérivation de KV-Cache et une documentation bilingue (chinois et anglais). Le tutoriel commence par le chargement des fichiers de modèle et des fichiers de configuration, puis guide à travers la conversion de texte en embeddings, la construction de blocs Transformer, la mise en œuvre du mécanisme d’attention, le codage positionnel (RoPE), la normalisation RMS, le réseau feed-forward SwiGLU et, enfin, prédit le jeton suivant. Il explore également les prédictions top-k, l’impact des différentes embeddings de jetons et les principes et avantages du mécanisme de cache KV.

Développement