Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

SmoothLLM：防御大型语言模型免受越狱攻击

2024-11-17

SmoothLLM 是一种旨在防御大型语言模型（LLM）免受越狱攻击的新算法。该算法基于对抗性生成的提示对字符级更改敏感的发现，通过随机扰动给定输入提示的多个副本，然后聚合相应的预测来检测对抗性输入。SmoothLLM 在各种流行的 LLM 中对 GCG、PAIR、RandomSearch 和 AmpleGCG 越狱攻击的防御方面均达到最先进水平，也能够抵抗自适应 GCG 攻击。虽然 SmoothLLM 在鲁棒性和标称性能之间存在小的但不可忽略的权衡，但它与任何 LLM 兼容。

(arxiv.org)

未分类越狱攻击 SmoothLLM