新型LLM越狱:利用模型的评估技能反制

2025-01-12
新型LLM越狱:利用模型的评估技能反制

安全研究人员发现了一种新型的LLM越狱方法——“坏的李克特法官”。该方法利用LLM评估有害内容的能力,通过诱导模型对有害内容进行评分,然后要求其提供相应示例,从而生成恶意软件、非法活动、骚扰等有害内容。该方法在1440个案例中平均成功率达71.6%,最高可达87.6%。研究人员建议LLM应用维护者应使用内容过滤器来缓解此类攻击。

科技 越狱