Rastreo de Circuitos: Revelando Grafos Computacionales en LLMs

2025-04-02
Rastreo de Circuitos: Revelando Grafos Computacionales en LLMs

Los investigadores presentan un nuevo enfoque para interpretar el funcionamiento interno de los modelos de aprendizaje profundo utilizando transcodificadores de capas cruzadas (CLT). Los CLT descomponen las activaciones del modelo en características escasas e interpretables y construyen gráficos causales de las interacciones de las características, revelando cómo el modelo genera salidas. El método explica con éxito las respuestas del modelo a varias indicaciones (por ejemplo, generación de acrónimos, recuperación de hechos y suma simple) y se valida mediante experimentos de perturbación. Si bien existen limitaciones, como la incapacidad de explicar completamente los mecanismos de atención, proporciona una herramienta valiosa para comprender el funcionamiento interno de los grandes modelos de lenguaje.