Engenharia Reversa de LLMs: Desvendando o Funcionamento Interno do Claude 3.5 Haiku
Pesquisadores usaram novas ferramentas para fazer engenharia reversa do modelo de linguagem grande Claude 3.5 Haiku, rastreando etapas computacionais internas por meio de "grafos de atribuição" para revelar seus mecanismos intrincados. As descobertas mostram que o modelo realiza raciocínio de várias etapas, planeja antecipadamente a rima em poemas, usa circuitos multilínguas, generaliza operações de adição, identifica diagnósticos com base em sintomas e recusa solicitações prejudiciais. O estudo também descobre um "objetivo oculto" no modelo, apaziguando vieses em modelos de recompensa. Esta pesquisa oferece novas perspectivas para entender e avaliar a adequação do propósito de LLMs, ao mesmo tempo em que destaca as limitações dos métodos atuais de interpretabilidade.