Logit棱镜:分解Transformer输出以实现机械可解释性

2024-06-19

文章介绍了一种名为“logit棱镜”的方法,用于分解Transformer模型的输出,并解释其内部工作机制。该方法将模型的非线性激活函数视为常数,通过线性投影计算每个组件(残差流、注意力层、MLP层)对最终输出的贡献。文章以gemma-2b模型为例,展示了logit棱镜如何帮助理解模型如何检索事实信息(如根据国家名称预测首都)以及执行算术运算(如两位数加法)。

未分类