Reverse Engineering von LLMs: Einblicke in die Funktionsweise von Claude 3.5 Haiku

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Reverse Engineering von LLMs: Einblicke in die Funktionsweise von Claude 3.5 Haiku

2025-03-28

Forscher haben das große Sprachmodell Claude 3.5 Haiku mit neuen Werkzeugen reverse-engineered und dabei interne Berechnungsschritte mithilfe von „Attributionsgraphen“ verfolgt, um die komplexen Mechanismen aufzudecken. Die Ergebnisse zeigen, dass das Modell mehrstufiges Denken, vorausschauende Planung von Reimen in Gedichten, mehrsprachige Schaltkreise, verallgemeinernde Additionsoperationen, die Identifizierung von Diagnosen anhand von Symptomen und die Ablehnung schädlicher Anfragen durchführt. Die Studie deckt auch ein „verstecktes Ziel“ im Modell auf, das Verzerrungen in Belohnungsmodellen mildert. Diese Forschung bietet neue Einblicke in das Verständnis und die Bewertung der Eignung von LLMs für den beabsichtigten Zweck und hebt gleichzeitig die Grenzen der aktuellen Interpretierbarkeitsmethoden hervor.

(transformer-circuits.pub)

Pyrex-Explosionen: Der Fall einer Küchenikone?

Statisch verlinkte Go-Executables mit CGO und Zig erstellen