改良型クロスコーダーがLLMファインチューニングの秘密を明らかに

2025-03-23
改良型クロスコーダーがLLMファインチューニングの秘密を明らかに

研究者らは、大規模言語モデル(LLM)の基本モデルとファインチューニングされたチャットモデルを比較するための新しい手法「タイドクロスコーダー」を発表しました。従来のクロスコーダーとは異なり、タイドクロスコーダーは、基本モデルとチャットモデルの両方に対して、同じ潜在的要因を異なる時間に発火させることを可能にします。これにより、チャットモデルにおける新規機能をより効果的に特定できます。実験により、この手法は、チャット行動が基本モデルの機能からどのように生じるかについてのより明確な説明を提供し、より単義的な潜在的要因をもたらすことが示されました。この研究は、LLMのファインチューニングプロセスに対する新たな洞察を提供し、将来のモデル改良の指針となります。