Construire un LLM à partir de zéro : Plongeon en profondeur dans l’auto-attention
Cet article de blog, le huitième d’une série documentant le parcours de l’auteur à travers le livre « Construire un grand modèle de langage (à partir de zéro) » de Sebastian Raschka, se concentre sur la mise en œuvre de l’auto-attention avec des poids entraînables. Il commence par passer en revue les étapes impliquées dans les LLM transformateurs uniquement décodeurs de style GPT, y compris les plongements de jetons et de position, l’auto-attention, la normalisation des scores d’attention et la génération de vecteurs de contexte. Le cœur de l’article explore l’attention par produit scalaire mis à l’échelle, en expliquant comment les matrices de poids entraînables projettent les plongements d’entrée dans différents espaces (requête, clé, valeur). La multiplication matricielle est utilisée pour un calcul efficace. L’auteur fournit une explication claire et mécaniste du processus, en concluant par un aperçu des sujets à venir : l’auto-attention causale et l’attention multi-têtes.