Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Schaltungsverfolgung: Aufdeckung von Berechnungsgraphen in LLMs

2025-04-02

Forscher stellen einen neuen Ansatz vor, um die interne Funktionsweise von Deep-Learning-Modellen mithilfe von Cross-Layer-Transcodern (CLTs) zu interpretieren. CLTs zerlegen die Aktivierungen des Modells in spärliche, interpretierbare Merkmale und konstruieren kausale Graphen der Merkmalsinteraktionen, wodurch aufgezeigt wird, wie das Modell Ausgaben generiert. Die Methode erklärt erfolgreich die Antworten des Modells auf verschiedene Eingaben (z. B. Akronymgenerierung, Faktenabruf und einfache Addition) und wird durch Störversuche validiert. Obwohl es Einschränkungen gibt, wie z. B. die Unfähigkeit, die Aufmerksamkeitsmechanismen vollständig zu erklären, bietet sie ein wertvolles Werkzeug, um die interne Funktionsweise großer Sprachmodelle zu verstehen.

(transformer-circuits.pub)

KI Modellinterpretierbarkeit Cross-Layer-Transcoder