Schaltungsverfolgung: Aufdeckung von Berechnungsgraphen in LLMs

2025-04-02
Schaltungsverfolgung: Aufdeckung von Berechnungsgraphen in LLMs

Forscher stellen einen neuen Ansatz vor, um die interne Funktionsweise von Deep-Learning-Modellen mithilfe von Cross-Layer-Transcodern (CLTs) zu interpretieren. CLTs zerlegen die Aktivierungen des Modells in spärliche, interpretierbare Merkmale und konstruieren kausale Graphen der Merkmalsinteraktionen, wodurch aufgezeigt wird, wie das Modell Ausgaben generiert. Die Methode erklärt erfolgreich die Antworten des Modells auf verschiedene Eingaben (z. B. Akronymgenerierung, Faktenabruf und einfache Addition) und wird durch Störversuche validiert. Obwohl es Einschränkungen gibt, wie z. B. die Unfähigkeit, die Aufmerksamkeitsmechanismen vollständig zu erklären, bietet sie ein wertvolles Werkzeug, um die interne Funktionsweise großer Sprachmodelle zu verstehen.

Mehr lesen

Reverse Engineering von LLMs: Einblicke in die Funktionsweise von Claude 3.5 Haiku

2025-03-28

Forscher haben das große Sprachmodell Claude 3.5 Haiku mit neuen Werkzeugen reverse-engineered und dabei interne Berechnungsschritte mithilfe von „Attributionsgraphen“ verfolgt, um die komplexen Mechanismen aufzudecken. Die Ergebnisse zeigen, dass das Modell mehrstufiges Denken, vorausschauende Planung von Reimen in Gedichten, mehrsprachige Schaltkreise, verallgemeinernde Additionsoperationen, die Identifizierung von Diagnosen anhand von Symptomen und die Ablehnung schädlicher Anfragen durchführt. Die Studie deckt auch ein „verstecktes Ziel“ im Modell auf, das Verzerrungen in Belohnungsmodellen mildert. Diese Forschung bietet neue Einblicke in das Verständnis und die Bewertung der Eignung von LLMs für den beabsichtigten Zweck und hebt gleichzeitig die Grenzen der aktuellen Interpretierbarkeitsmethoden hervor.

Mehr lesen
KI