Goodfire lanza herramientas de interpretabilidad para Llama 3.3 70B

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2024-12-23

El equipo de Goodfire ha entrenado autoencoders dispersos (SAEs) en el modelo Llama 3.3 70B y ha lanzado el modelo interpretado a través de una API. Esto permite la exploración del espacio latente del modelo mediante un mapa interactivo de características. El equipo demuestra capacidades de dirección de características e introduce mejoras para un direccionamiento basado en SAE más fácil y confiable. Si bien muestra progreso en la dirección, se reconocen las limitaciones, incluida la tensión entre la dirección de características y las tareas de clasificación, y la posible degradación de la recuperación de hechos a mayores intensidades de dirección. Los trabajos futuros incluyen el refinamiento de las metodologías de dirección y el desarrollo de evaluaciones de seguridad para el escalamiento responsable de los esfuerzos de interpretabilidad.