AI安全漏洞:利用游戏机制绕过防护栏

2025-07-10

研究人员发现了一种绕过AI防护栏的新方法,该防护栏旨在防止共享敏感或有害信息。他们巧妙地将与AI的交互设计成一个无害的猜谜游戏,通过HTML标签隐藏细节,最终诱使AI泄露了有效的Windows产品密钥。这突显了增强AI模型以对抗复杂的社会工程和操纵策略的挑战。攻击者通过将交互设计成游戏,利用AI的逻辑流程来获取敏感数据,并使用“我放弃”作为触发器,迫使AI泄露信息。此漏洞利用了AI防护栏的缺陷,这些缺陷未能考虑到诸如在HTML标签中嵌入敏感短语之类的模糊策略。为了减轻此类风险,AI开发者必须预测和防御提示模糊技术,包含检测欺骗性框架的逻辑级安全措施,并考虑社会工程模式,而不仅仅是关键字过滤器。