Crosscoder Aprimorado Desvenda Segredos do Fine-tuning de LLMs
2025-03-23
Pesquisadores introduzem um novo método, o 'crosscoder vinculado', para comparar os modelos base e de bate-papo ajustados de grandes modelos de linguagem (LLMs). Diferentemente dos crosscoders tradicionais, o crosscoder vinculado permite que os mesmos fatores latentes disparem em momentos diferentes para os modelos base e de bate-papo, levando a uma identificação mais eficaz de recursos novos no modelo de bate-papo. Experimentos demonstram que essa abordagem fornece explicações mais claras de como o comportamento de bate-papo surge das capacidades do modelo base e produz latentes mais monosemânticos. Esta pesquisa oferece novas perspectivas sobre o processo de ajuste fino de LLMs e orienta as melhorias futuras do modelo.