Webtagr - Résumé de news de technologie

Construire des LLMs à partir de zéro : vecteurs, matrices et espaces de haute dimension

2025-09-06

Cet article, le second d'une série en trois parties, démystifie le fonctionnement des grands modèles de langage (LLM) pour les lecteurs ayant une inclination technique et des connaissances limitées en IA. S'appuyant sur la partie 19 d'une série basée sur le livre de Sebastian Raschka « Construire un grand modèle de langage (à partir de zéro) », il explique l'utilisation des vecteurs, des matrices et des espaces de haute dimension (espace de vocabulaire et espace d'intégration) dans les LLM. L'auteur soutient que la compréhension de l'inférence LLM ne nécessite que des mathématiques de niveau lycée, tandis que l'entraînement nécessite des mathématiques plus avancées. L'article détaille comment les vecteurs représentent la signification dans les espaces de haute dimension et comment la multiplication matricielle projette entre ces espaces, en la reliant aux couches linéaires des réseaux neuronaux.

Lire plus

(www.gilesthomas.com)

IA Vecteurs

Construire un LLM à partir de zéro : percer le mystère de l’attention

2025-05-11

Cet article explore le fonctionnement interne du mécanisme d’auto-attention dans les grands modèles de langage. L’auteur analyse l’attention multi-têtes et les mécanismes en couches, expliquant comment des multiplications de matrices apparemment simples permettent d’obtenir des fonctionnalités complexes. L’idée principale est que les têtes d’attention individuelles sont simples, mais grâce à l’attention multi-têtes et aux couches, des représentations complexes et riches sont construites. Cela est analogue à la manière dont les réseaux neuronaux convolutionnels extraient des caractéristiques couche par couche, obtenant ainsi une compréhension approfondie de la séquence d’entrée. De plus, l’article explique comment les mécanismes d’attention résolvent le problème inhérent de goulot d’étranglement de longueur fixe des modèles RNN et utilise des exemples pour illustrer les rôles des espaces de requête, de clé et de valeur dans le mécanisme d’attention.

Lire plus

(www.gilesthomas.com)

IA

Construire un LLM à partir de zéro : Plongeon approfondi dans le dropout

2025-03-20

Cet article relate le parcours de l’auteur à travers le chapitre sur le dropout du livre de Sebastian Raschka « Construire un grand modèle de langage (à partir de zéro) ». Le dropout est une technique de régularisation qui prévient le sur-apprentissage en ignorant aléatoirement certains neurones ou poids pendant l’entraînement, répartissant ainsi les connaissances plus largement dans le modèle. L’auteur détaille la mise en œuvre du dropout et explore les nuances de son application dans les LLM, telles que l’application du dropout aux poids d’attention ou aux vecteurs de valeur, et le rééquilibrage de la matrice résultante. L’article aborde également les choix pratiques du taux de dropout et les défis liés à la gestion des tenseurs d’ordre supérieur pour le traitement par lots, préparant le terrain pour un apprentissage futur.

Lire plus

(www.gilesthomas.com)

Développement

Construire un LLM à partir de zéro : Plongeon en profondeur dans l’auto-attention

2025-03-05

Cet article de blog, le huitième d’une série documentant le parcours de l’auteur à travers le livre « Construire un grand modèle de langage (à partir de zéro) » de Sebastian Raschka, se concentre sur la mise en œuvre de l’auto-attention avec des poids entraînables. Il commence par passer en revue les étapes impliquées dans les LLM transformateurs uniquement décodeurs de style GPT, y compris les plongements de jetons et de position, l’auto-attention, la normalisation des scores d’attention et la génération de vecteurs de contexte. Le cœur de l’article explore l’attention par produit scalaire mis à l’échelle, en expliquant comment les matrices de poids entraînables projettent les plongements d’entrée dans différents espaces (requête, clé, valeur). La multiplication matricielle est utilisée pour un calcul efficace. L’auteur fournit une explication claire et mécaniste du processus, en concluant par un aperçu des sujets à venir : l’auto-attention causale et l’attention multi-têtes.

Lire plus

(www.gilesthomas.com)

IA Transformateur

Les blogs sont-ils encore pertinents à l'ère de l'IA ?

2025-02-25

Cet article explore la valeur des blogs à l'ère de ChatGPT et d'autres outils d'IA. Bien que l'IA puisse facilement accéder et synthétiser des informations, les blogs restent précieux : ils consolident les connaissances, aident les autres, construisent une marque personnelle (bien que cela soit difficile à réaliser uniquement avec des blogs), procurent un sentiment d'accomplissement et constituent un portfolio d'écriture démontrant des compétences de pensée, ce qui profite au développement professionnel. L'auteur soutient que le principal impact de l'IA sur les blogs est de réduire le sentiment d'accomplissement lié à l'interaction avec les lecteurs, mais cela n'invalide pas la valeur globale des blogs.

Lire plus

(www.gilesthomas.com)

Développement

Rétrospective d'un blogueur : la valeur des articles d’apprentissage approfondi

2025-02-24

Un blogueur, alors qu'il se remettait d'une maladie mineure, a relu ses anciens articles et a constaté que les plus populaires suivaient un schéma : apprendre une nouvelle compétence et la résumer sous forme de tutoriel. Il pense que ce style d'écriture non seulement consolide ses propres connaissances, mais aide également les autres. Ces articles de blog de type tutoriel sont les ressources mêmes que l'auteur aurait souhaité trouver lorsqu'il apprenait, offrant aux lecteurs des guides d'apprentissage clairs et approfondis. À l'avenir, l'auteur prévoit de créer davantage de ces « plongées profondes TIL », partageant ainsi son parcours d'apprentissage.

Lire plus

(www.gilesthomas.com)

Divers tutoriels