Crosscoder Mejorado Revela los Secretos del Ajuste Fino de LLMs
Los investigadores presentan un nuevo método, el 'crosscoder vinculado', para comparar los modelos base y de chat ajustados de los grandes modelos de lenguaje (LLMs). A diferencia de los crosscoders tradicionales, el crosscoder vinculado permite que los mismos factores latentes se activen en diferentes momentos para los modelos base y de chat, lo que lleva a una identificación más eficaz de las características nuevas en el modelo de chat. Los experimentos demuestran que este enfoque proporciona explicaciones más claras de cómo surge el comportamiento de chat a partir de las capacidades del modelo base y produce latentes más monosemánticos. Esta investigación ofrece nuevas perspectivas sobre el proceso de ajuste fino de los LLMs y guía las mejoras futuras del modelo.