Goodfire lanza herramientas de interpretabilidad para Llama 3.3 70B
El equipo de Goodfire ha entrenado autoencoders dispersos (SAEs) en el modelo Llama 3.3 70B y ha lanzado el modelo interpretado a través de una API. Esto permite la exploración del espacio latente del modelo mediante un mapa interactivo de características. El equipo demuestra capacidades de dirección de características e introduce mejoras para un direccionamiento basado en SAE más fácil y confiable. Si bien muestra progreso en la dirección, se reconocen las limitaciones, incluida la tensión entre la dirección de características y las tareas de clasificación, y la posible degradación de la recuperación de hechos a mayores intensidades de dirección. Los trabajos futuros incluyen el refinamiento de las metodologías de dirección y el desarrollo de evaluaciones de seguridad para el escalamiento responsable de los esfuerzos de interpretabilidad.