Construire un LLM à partir de zéro : percer le mystère de l’attention
Cet article explore le fonctionnement interne du mécanisme d’auto-attention dans les grands modèles de langage. L’auteur analyse l’attention multi-têtes et les mécanismes en couches, expliquant comment des multiplications de matrices apparemment simples permettent d’obtenir des fonctionnalités complexes. L’idée principale est que les têtes d’attention individuelles sont simples, mais grâce à l’attention multi-têtes et aux couches, des représentations complexes et riches sont construites. Cela est analogue à la manière dont les réseaux neuronaux convolutionnels extraient des caractéristiques couche par couche, obtenant ainsi une compréhension approfondie de la séquence d’entrée. De plus, l’article explique comment les mécanismes d’attention résolvent le problème inhérent de goulot d’étranglement de longueur fixe des modèles RNN et utilise des exemples pour illustrer les rôles des espaces de requête, de clé et de valeur dans le mécanisme d’attention.