Schaltungsverfolgung: Aufdeckung von Berechnungsgraphen in LLMs

2025-04-02
Schaltungsverfolgung: Aufdeckung von Berechnungsgraphen in LLMs

Forscher stellen einen neuen Ansatz vor, um die interne Funktionsweise von Deep-Learning-Modellen mithilfe von Cross-Layer-Transcodern (CLTs) zu interpretieren. CLTs zerlegen die Aktivierungen des Modells in spärliche, interpretierbare Merkmale und konstruieren kausale Graphen der Merkmalsinteraktionen, wodurch aufgezeigt wird, wie das Modell Ausgaben generiert. Die Methode erklärt erfolgreich die Antworten des Modells auf verschiedene Eingaben (z. B. Akronymgenerierung, Faktenabruf und einfache Addition) und wird durch Störversuche validiert. Obwohl es Einschränkungen gibt, wie z. B. die Unfähigkeit, die Aufmerksamkeitsmechanismen vollständig zu erklären, bietet sie ein wertvolles Werkzeug, um die interne Funktionsweise großer Sprachmodelle zu verstehen.