这篇论文研究了大型语言模型如何拒绝执行有害指令。研究发现,模型拒绝行为是由模型残差流激活中一个单一方向介导的,通过操控这个方向可以控制模型的拒绝行为。作者提出了一种新的白盒攻击方法,可以精准地消除模型的拒绝行为,同时对其他能力的影响最小。