Rastreamento de Circuitos: Revelando Grafos Computacionais em LLMs

2025-04-02
Rastreamento de Circuitos: Revelando Grafos Computacionais em LLMs

Pesquisadores apresentam uma nova abordagem para interpretar o funcionamento interno de modelos de aprendizado profundo usando transcodificadores de camadas cruzadas (CLTs). Os CLTs decompõem as ativações do modelo em recursos esparsos e interpretáveis e constroem gráficos causais de interações de recursos, revelando como o modelo gera saídas. O método explica com sucesso as respostas do modelo a várias instruções (por exemplo, geração de siglas, recuperação de fatos e adição simples) e é validado por meio de experimentos de perturbação. Embora existam limitações, como a incapacidade de explicar totalmente os mecanismos de atenção, ele fornece uma ferramenta valiosa para entender o funcionamento interno de grandes modelos de linguagem.

Leia mais

Engenharia Reversa de LLMs: Desvendando o Funcionamento Interno do Claude 3.5 Haiku

2025-03-28

Pesquisadores usaram novas ferramentas para fazer engenharia reversa do modelo de linguagem grande Claude 3.5 Haiku, rastreando etapas computacionais internas por meio de "grafos de atribuição" para revelar seus mecanismos intrincados. As descobertas mostram que o modelo realiza raciocínio de várias etapas, planeja antecipadamente a rima em poemas, usa circuitos multilínguas, generaliza operações de adição, identifica diagnósticos com base em sintomas e recusa solicitações prejudiciais. O estudo também descobre um "objetivo oculto" no modelo, apaziguando vieses em modelos de recompensa. Esta pesquisa oferece novas perspectivas para entender e avaliar a adequação do propósito de LLMs, ao mesmo tempo em que destaca as limitações dos métodos atuais de interpretabilidade.

Leia mais
IA