语言模型中的拒绝行为由单一方向介导

2024-06-18

这篇论文研究了大型语言模型如何拒绝执行有害指令。研究发现,模型拒绝行为是由模型残差流激活中一个单一方向介导的,通过操控这个方向可以控制模型的拒绝行为。作者提出了一种新的白盒攻击方法,可以精准地消除模型的拒绝行为,同时对其他能力的影响最小。

52
未分类 拒绝行为