Goodfire publie des outils d'interprétabilité pour Llama 3.3 70B
L'équipe Goodfire a entraîné des autoencodeurs creux (SAE) sur le modèle Llama 3.3 70B et a publié le modèle interprété via une API. Cela permet d'explorer l'espace latent du modèle grâce à une carte interactive des caractéristiques. L'équipe démontre les capacités de pilotage des caractéristiques et introduit des améliorations pour un pilotage basé sur les SAE plus facile et plus fiable. Tout en montrant des progrès en matière de pilotage, les limitations sont reconnues, notamment la tension entre le pilotage des caractéristiques et les tâches de classification, et la possible dégradation de la restitution des faits à des intensités de pilotage plus élevées. Les travaux futurs comprennent le raffinement des méthodologies de pilotage et le développement d'évaluations de sécurité pour une mise à l'échelle responsable des efforts d'interprétabilité.