Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

语言模型中的拒绝行为由单一方向介导

2024-06-18

这篇论文研究了大型语言模型如何拒绝执行有害指令。研究发现，模型拒绝行为是由模型残差流激活中一个单一方向介导的，通过操控这个方向可以控制模型的拒绝行为。作者提出了一种新的白盒攻击方法，可以精准地消除模型的拒绝行为，同时对其他能力的影响最小。

(arxiv.org)

未分类拒绝行为