语言模型中的拒绝行为由单一方向介导

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

2024-06-18

这篇论文研究了大型语言模型如何拒绝执行有害指令。研究发现，模型拒绝行为是由模型残差流激活中一个单一方向介导的，通过操控这个方向可以控制模型的拒绝行为。作者提出了一种新的白盒攻击方法，可以精准地消除模型的拒绝行为，同时对其他能力的影响最小。

(arxiv.org)

未分类拒绝行为