Crosscoder Amélioré Révèle les Secrets de l'Ajustement Fin des LLMs
Des chercheurs présentent une nouvelle méthode, le « crosscoder lié », pour comparer les modèles de base et de chat ajustés des grands modèles de langage (LLMs). Contrairement aux crosscoders traditionnels, le crosscoder lié permet aux mêmes facteurs latents de s'activer à des moments différents pour les modèles de base et de chat, conduisant à une identification plus efficace des nouvelles caractéristiques du modèle de chat. Les expériences montrent que cette approche fournit des explications plus claires de la manière dont le comportement de chat émerge des capacités du modèle de base et produit des latents plus monosémantiques. Cette recherche offre de nouvelles perspectives sur le processus d'ajustement fin des LLMs et guide les améliorations futures du modèle.