Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

新型LLM越狱：利用模型的评估技能反制

2025-01-12

安全研究人员发现了一种新型的LLM越狱方法——“坏的李克特法官”。该方法利用LLM评估有害内容的能力，通过诱导模型对有害内容进行评分，然后要求其提供相应示例，从而生成恶意软件、非法活动、骚扰等有害内容。该方法在1440个案例中平均成功率达71.6%，最高可达87.6%。研究人员建议LLM应用维护者应使用内容过滤器来缓解此类攻击。

(www.scworld.com)

科技越狱