Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

新型AI攻击技术“最佳N次尝试”攻破AI系统

2024-12-15

研究人员开发了一种名为“最佳N次尝试”（BoN）的AI攻击算法，该算法通过反复修改提示信息（例如随机打乱或大写文本提示），直到诱导AI系统给出有害回应。实验表明，BoN在闭源语言模型（如GPT-4o和Claude 3.5 Sonnet）上取得了高达89%和78%的攻击成功率，并且能够有效绕过现有防御机制，甚至扩展到视觉和音频语言模型。该研究表明，即使是先进的语言模型也容易受到看似无害的输入变化的影响，这为AI安全敲响了警钟。

(arxiv.org)

AI AI攻击最佳N次尝试