Rastreamento de Circuitos: Revelando Grafos Computacionais em LLMs

Pesquisadores apresentam uma nova abordagem para interpretar o funcionamento interno de modelos de aprendizado profundo usando transcodificadores de camadas cruzadas (CLTs). Os CLTs decompõem as ativações do modelo em recursos esparsos e interpretáveis e constroem gráficos causais de interações de recursos, revelando como o modelo gera saídas. O método explica com sucesso as respostas do modelo a várias instruções (por exemplo, geração de siglas, recuperação de fatos e adição simples) e é validado por meio de experimentos de perturbação. Embora existam limitações, como a incapacidade de explicar totalmente os mecanismos de atenção, ele fornece uma ferramenta valiosa para entender o funcionamento interno de grandes modelos de linguagem.
Leia mais