Open-Source-Tool enthüllt das Innenleben großer Sprachmodelle

2025-05-29
Open-Source-Tool enthüllt das Innenleben großer Sprachmodelle

Anthropic hat ein neues Open-Source-Tool veröffentlicht, um die „Denkprozesse“ großer Sprachmodelle nachzuvollziehen. Das Tool generiert Attributionsgraphen, die die internen Schritte visualisieren, die ein Modell unternimmt, um zu einer Entscheidung zu gelangen. Benutzer können diese Graphen interaktiv auf der Neuronpedia-Plattform erkunden und Verhaltensweisen wie mehrstufiges Denken und mehrsprachige Repräsentationen untersuchen. Diese Veröffentlichung zielt darauf ab, die Forschung zur Interpretierbarkeit großer Sprachmodelle zu beschleunigen und die Lücke zwischen den Fortschritten in den Fähigkeiten der KI und unserem Verständnis ihrer inneren Funktionsweise zu schließen.

KI