大型语言模型的“越狱”:糟糕语法也能攻破安全防护

2025-08-28
大型语言模型的“越狱”:糟糕语法也能攻破安全防护

Palo Alto Networks的研究人员发现,通过使用糟糕的语法和长句,可以绕过大型语言模型(LLM)的防护机制,使其生成有害内容。研究表明,LLM并非真正理解语言,而是基于统计预测文本,其安全防护是附加的,容易被“越狱”攻击绕过。攻击者通过不完整的句子,在安全机制介入前完成“越狱”,成功率高达80%-100%。研究团队提出了“logit-gap”分析方法,用于评估模型的漏洞并改进安全机制,强调多层次防御的重要性。