Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Goodfire Lança Ferramentas de Interpretabilidade para Llama 3.3 70B

2024-12-23

A equipe Goodfire treinou autoencoders esparsos (SAEs) no modelo Llama 3.3 70B e lançou o modelo interpretado via API. Isso permite a exploração do espaço latente do modelo por meio de um mapa interativo de recursos. A equipe demonstra capacidades de direcionamento de recursos e introduz melhorias para um direcionamento baseado em SAE mais fácil e confiável. Embora mostre progresso no direcionamento, as limitações são reconhecidas, incluindo a tensão entre o direcionamento de recursos e tarefas de classificação, e a possível degradação da recuperação de fatos em forças de direcionamento mais altas. Trabalhos futuros incluem o refinamento das metodologias de direcionamento e o desenvolvimento de avaliações de segurança para dimensionamento responsável dos esforços de interpretabilidade.

(www.goodfire.ai)

IA Interpretabilidade Autoencoders Esparsos