Goodfire Lança Ferramentas de Interpretabilidade para Llama 3.3 70B

2024-12-23

A equipe Goodfire treinou autoencoders esparsos (SAEs) no modelo Llama 3.3 70B e lançou o modelo interpretado via API. Isso permite a exploração do espaço latente do modelo por meio de um mapa interativo de recursos. A equipe demonstra capacidades de direcionamento de recursos e introduz melhorias para um direcionamento baseado em SAE mais fácil e confiável. Embora mostre progresso no direcionamento, as limitações são reconhecidas, incluindo a tensão entre o direcionamento de recursos e tarefas de classificação, e a possível degradação da recuperação de fatos em forças de direcionamento mais altas. Trabalhos futuros incluem o refinamento das metodologias de direcionamento e o desenvolvimento de avaliações de segurança para dimensionamento responsável dos esforços de interpretabilidade.