SmoothLLM:防御大型语言模型免受越狱攻击

2024-11-17

SmoothLLM 是一种旨在防御大型语言模型(LLM)免受越狱攻击的新算法。该算法基于对抗性生成的提示对字符级更改敏感的发现,通过随机扰动给定输入提示的多个副本,然后聚合相应的预测来检测对抗性输入。SmoothLLM 在各种流行的 LLM 中对 GCG、PAIR、RandomSearch 和 AmpleGCG 越狱攻击的防御方面均达到最先进水平,也能够抵抗自适应 GCG 攻击。虽然 SmoothLLM 在鲁棒性和标称性能之间存在小的但不可忽略的权衡,但它与任何 LLM 兼容。

10