Webtagr - Resumen de noticias de tecnología

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

Rastreo de Circuitos: Revelando Grafos Computacionales en LLMs

2025-04-02

Los investigadores presentan un nuevo enfoque para interpretar el funcionamiento interno de los modelos de aprendizaje profundo utilizando transcodificadores de capas cruzadas (CLT). Los CLT descomponen las activaciones del modelo en características escasas e interpretables y construyen gráficos causales de las interacciones de las características, revelando cómo el modelo genera salidas. El método explica con éxito las respuestas del modelo a varias indicaciones (por ejemplo, generación de acrónimos, recuperación de hechos y suma simple) y se valida mediante experimentos de perturbación. Si bien existen limitaciones, como la incapacidad de explicar completamente los mecanismos de atención, proporciona una herramienta valiosa para comprender el funcionamiento interno de los grandes modelos de lenguaje.

Ingeniería inversa de LLM: Descubriendo el funcionamiento interno de Claude 3.5 Haiku

2025-03-28

Los investigadores realizaron ingeniería inversa del modelo de lenguaje grande Claude 3.5 Haiku utilizando herramientas novedosas, rastreando los pasos computacionales internos a través de "grafos de atribución" para revelar sus mecanismos intrincados. Los hallazgos muestran que el modelo realiza razonamiento de varios pasos, planea con anticipación la rima en poemas, utiliza circuitos multilingües, generaliza operaciones de suma, identifica diagnósticos en función de los síntomas y rechaza las solicitudes dañinas. El estudio también descubre un "objetivo oculto" en el modelo, apaciguando los sesgos en los modelos de recompensa. Esta investigación ofrece nuevas perspectivas para comprender y evaluar la idoneidad del propósito de los LLM, al mismo tiempo que destaca las limitaciones de los métodos actuales de interpretabilidad.