Reverse Engineering von LLMs: Einblicke in die Funktionsweise von Claude 3.5 Haiku
Forscher haben das große Sprachmodell Claude 3.5 Haiku mit neuen Werkzeugen reverse-engineered und dabei interne Berechnungsschritte mithilfe von „Attributionsgraphen“ verfolgt, um die komplexen Mechanismen aufzudecken. Die Ergebnisse zeigen, dass das Modell mehrstufiges Denken, vorausschauende Planung von Reimen in Gedichten, mehrsprachige Schaltkreise, verallgemeinernde Additionsoperationen, die Identifizierung von Diagnosen anhand von Symptomen und die Ablehnung schädlicher Anfragen durchführt. Die Studie deckt auch ein „verstecktes Ziel“ im Modell auf, das Verzerrungen in Belohnungsmodellen mildert. Diese Forschung bietet neue Einblicke in das Verständnis und die Bewertung der Eignung von LLMs für den beabsichtigten Zweck und hebt gleichzeitig die Grenzen der aktuellen Interpretierbarkeitsmethoden hervor.