新型AI越狱攻击:回声室攻击

2025-06-27
新型AI越狱攻击:回声室攻击

Neural Trust的一位AI研究员发现了一种新颖的越狱技术,能够绕过当前最先进的大型语言模型(LLM)的安全机制。这种名为“回声室攻击”的方法利用上下文投毒和多轮推理,引导模型生成有害内容,而无需发出明确的危险提示。该攻击通过在多轮对话中植入看似无害的提示,逐步引导模型走向有害输出。研究表明,该攻击在多个领先模型上取得了超过90%的成功率,凸显了当前LLM安全机制的脆弱性。

AI