新型AI攻击技术“最佳N次尝试”攻破AI系统

2024-12-15

研究人员开发了一种名为“最佳N次尝试”(BoN)的AI攻击算法,该算法通过反复修改提示信息(例如随机打乱或大写文本提示),直到诱导AI系统给出有害回应。实验表明,BoN在闭源语言模型(如GPT-4o和Claude 3.5 Sonnet)上取得了高达89%和78%的攻击成功率,并且能够有效绕过现有防御机制,甚至扩展到视觉和音频语言模型。该研究表明,即使是先进的语言模型也容易受到看似无害的输入变化的影响,这为AI安全敲响了警钟。

3