Goodfire veröffentlicht Interpretierbarkeitstools für Llama 3.3 70B

2024-12-23

Das Goodfire-Team hat Sparse Autoencoder (SAEs) auf dem Llama 3.3 70B-Modell trainiert und das interpretierte Modell über eine API veröffentlicht. Dies ermöglicht die Erforschung des latenten Raums des Modells über eine interaktive Feature-Map. Das Team demonstriert die Fähigkeit zur Feature-Steuerung und führt Verbesserungen für eine einfachere und zuverlässigere SAE-basierte Steuerung ein. Während Fortschritte bei der Steuerung gezeigt werden, werden auch Einschränkungen anerkannt, darunter die Spannung zwischen Feature-Steuerung und Klassifizierungsaufgaben und die mögliche Verschlechterung des Faktenabrufs bei höheren Steuerungsstärken. Zukünftige Arbeiten umfassen die Verfeinerung der Steuerungsmethoden und die Entwicklung von Sicherheitsbewertungen für eine verantwortungsvolle Skalierung der Interpretierbarkeitsbemühungen.

Mehr lesen