Rastreo de Circuitos: Revelando Grafos Computacionales en LLMs

2025-04-02
Rastreo de Circuitos: Revelando Grafos Computacionales en LLMs

Los investigadores presentan un nuevo enfoque para interpretar el funcionamiento interno de los modelos de aprendizaje profundo utilizando transcodificadores de capas cruzadas (CLT). Los CLT descomponen las activaciones del modelo en características escasas e interpretables y construyen gráficos causales de las interacciones de las características, revelando cómo el modelo genera salidas. El método explica con éxito las respuestas del modelo a varias indicaciones (por ejemplo, generación de acrónimos, recuperación de hechos y suma simple) y se valida mediante experimentos de perturbación. Si bien existen limitaciones, como la incapacidad de explicar completamente los mecanismos de atención, proporciona una herramienta valiosa para comprender el funcionamiento interno de los grandes modelos de lenguaje.

Leer más

Ingeniería inversa de LLM: Descubriendo el funcionamiento interno de Claude 3.5 Haiku

2025-03-28

Los investigadores realizaron ingeniería inversa del modelo de lenguaje grande Claude 3.5 Haiku utilizando herramientas novedosas, rastreando los pasos computacionales internos a través de "grafos de atribución" para revelar sus mecanismos intrincados. Los hallazgos muestran que el modelo realiza razonamiento de varios pasos, planea con anticipación la rima en poemas, utiliza circuitos multilingües, generaliza operaciones de suma, identifica diagnósticos en función de los síntomas y rechaza las solicitudes dañinas. El estudio también descubre un "objetivo oculto" en el modelo, apaciguando los sesgos en los modelos de recompensa. Esta investigación ofrece nuevas perspectivas para comprender y evaluar la idoneidad del propósito de los LLM, al mismo tiempo que destaca las limitaciones de los métodos actuales de interpretabilidad.

Leer más
IA