Rastreo de Circuitos: Revelando Grafos Computacionales en LLMs

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-04-02

Los investigadores presentan un nuevo enfoque para interpretar el funcionamiento interno de los modelos de aprendizaje profundo utilizando transcodificadores de capas cruzadas (CLT). Los CLT descomponen las activaciones del modelo en características escasas e interpretables y construyen gráficos causales de las interacciones de las características, revelando cómo el modelo genera salidas. El método explica con éxito las respuestas del modelo a varias indicaciones (por ejemplo, generación de acrónimos, recuperación de hechos y suma simple) y se valida mediante experimentos de perturbación. Si bien existen limitaciones, como la incapacidad de explicar completamente los mecanismos de atención, proporciona una herramienta valiosa para comprender el funcionamiento interno de los grandes modelos de lenguaje.