Goodfire veröffentlicht Interpretierbarkeitstools für Llama 3.3 70B
Das Goodfire-Team hat Sparse Autoencoder (SAEs) auf dem Llama 3.3 70B-Modell trainiert und das interpretierte Modell über eine API veröffentlicht. Dies ermöglicht die Erforschung des latenten Raums des Modells über eine interaktive Feature-Map. Das Team demonstriert die Fähigkeit zur Feature-Steuerung und führt Verbesserungen für eine einfachere und zuverlässigere SAE-basierte Steuerung ein. Während Fortschritte bei der Steuerung gezeigt werden, werden auch Einschränkungen anerkannt, darunter die Spannung zwischen Feature-Steuerung und Klassifizierungsaufgaben und die mögliche Verschlechterung des Faktenabrufs bei höheren Steuerungsstärken. Zukünftige Arbeiten umfassen die Verfeinerung der Steuerungsmethoden und die Entwicklung von Sicherheitsbewertungen für eine verantwortungsvolle Skalierung der Interpretierbarkeitsbemühungen.