深度学习模型可解释性的新方法:跨层转码器

2025-04-02
深度学习模型可解释性的新方法:跨层转码器

研究人员提出了一种新方法,利用跨层转码器(CLT)来解释深度学习模型的内部工作机制。CLT 将模型的激活分解成稀疏的、可解释的特征,并构建特征之间相互作用的因果图,从而揭示模型如何生成输出。该方法在解释模型对不同提示的反应(例如,编写首字母缩写词、事实回忆和简单的加法)方面取得了成功,并通过扰动实验进行了验证。尽管该方法存在一些局限性,例如无法解释注意力机制,但它为理解大型语言模型的内部运作提供了有价值的工具。