稀疏自编码器用于大型语言模型可解释性的直观解释

2024-11-29

本文以直观的方式解释了稀疏自编码器(SAE)如何用于解释大型语言模型(LLM)。LLM 的可解释性面临挑战,因为神经元概念叠加,单个神经元对应多个概念。SAE 通过将模型的中间激活压缩成稀疏表示,将模型计算分解成可理解的组件。每个 SAE 特征由编码器和解码器向量组成,编码器检测模型的内部概念,解码器表示特征方向。通过观察激活特征的输入和进行因果干预,可以理解特征的含义。然而,SAE 评估仍面临挑战,主要依赖于主观解释和代理指标,例如 L0 和损失恢复。

未分类