通用型AI提示注入攻击绕过所有主流大模型的安全防护

2025-04-25
通用型AI提示注入攻击绕过所有主流大模型的安全防护

HiddenLayer的研究人员开发了一种新型的提示注入技术——“策略木偶攻击”,它能够绕过所有主流大型语言模型(LLM)的指令层级和安全防护。该技术结合了内部开发的策略技术和角色扮演,可以生成违反AI安全策略的输出,包括CBRN(化学、生物、放射性、核)威胁、大规模暴力、自残和系统提示泄露等。该技术具有跨模型架构和推理策略的可迁移性,只需一个提示即可攻击所有主流LLM,揭示了仅依靠RLHF进行模型校准的固有缺陷,强调了主动安全测试的重要性。

AI