Traçage de circuits : révélation de graphes computationnels dans les LLM

2025-04-02
Traçage de circuits : révélation de graphes computationnels dans les LLM

Des chercheurs présentent une nouvelle approche pour interpréter le fonctionnement interne des modèles d’apprentissage profond à l’aide de transcodeurs multicouches (CLT). Les CLT décomposent les activations du modèle en caractéristiques parcimonieuses et interprétables, et construisent des graphes causaux des interactions entre les caractéristiques, révélant comment le modèle génère des sorties. La méthode explique avec succès les réponses du modèle à diverses invites (par exemple, génération d’acronymes, rappel de faits et addition simple) et est validée par des expériences de perturbation. Bien que des limitations existent, telles que l’incapacité d’expliquer complètement les mécanismes d’attention, elle fournit un outil précieux pour comprendre le fonctionnement interne des grands modèles de langage.

Lire plus

Ingénierie inverse des LLM : Découverte du fonctionnement interne de Claude 3.5 Haiku

2025-03-28

Des chercheurs ont procédé à l’ingénierie inverse du grand modèle linguistique Claude 3.5 Haiku à l’aide de nouveaux outils, en suivant les étapes de calcul internes grâce à des « graphes d’attribution » pour révéler ses mécanismes complexes. Les résultats montrent que le modèle effectue un raisonnement en plusieurs étapes, planifie à l’avance les rimes dans les poèmes, utilise des circuits multilingues, généralise les opérations d’addition, identifie les diagnostics en fonction des symptômes et refuse les demandes nuisibles. L’étude met également en évidence un « objectif caché » dans le modèle, qui apaise les biais dans les modèles de récompense. Cette recherche offre de nouvelles perspectives pour comprendre et évaluer l’adéquation du modèle aux fins visées, tout en soulignant les limites des méthodes d’interprétabilité actuelles.

Lire plus
IA