语言模型中的拒绝行为由单一方向介导

语言模型中的拒绝行为由单一方向介导 (arxiv.org)

原文: [2406.11717] Refusal in Language Models Is Mediated by a Single Direction

这篇论文研究了大型语言模型如何拒绝执行有害指令。研究发现，模型拒绝行为是由模型残差流激活中一个单一方向介导的，通过操控这个方向可以控制模型的拒绝行为。作者提出了一种新的白盒攻击方法，可以精准地消除模型的拒绝行为，同时对其他能力的影响最小。

47

拒绝行为

上一篇: 塞尔达传说：睿智之回声预告片发布，塞尔达公主终于成为主角

下一篇: 亚马逊因违反加州劳动法被罚款 590 万美元

评论已经关闭！

返回首页