Traçage de circuits : révélation de graphes computationnels dans les LLM
Des chercheurs présentent une nouvelle approche pour interpréter le fonctionnement interne des modèles d’apprentissage profond à l’aide de transcodeurs multicouches (CLT). Les CLT décomposent les activations du modèle en caractéristiques parcimonieuses et interprétables, et construisent des graphes causaux des interactions entre les caractéristiques, révélant comment le modèle génère des sorties. La méthode explique avec succès les réponses du modèle à diverses invites (par exemple, génération d’acronymes, rappel de faits et addition simple) et est validée par des expériences de perturbation. Bien que des limitations existent, telles que l’incapacité d’expliquer complètement les mécanismes d’attention, elle fournit un outil précieux pour comprendre le fonctionnement interne des grands modèles de langage.