“印第安纳琼斯”攻破大型语言模型安全防护
2025-02-24
澳大利亚和新加坡的研究人员开发了一种名为“印第安纳琼斯”的新型攻击方法,成功绕过了大型语言模型(LLM)的内置安全过滤器。该方法利用三个协同工作的LLM,通过迭代式提问,引导模型泄露本应被过滤的危险信息,例如指导用户如何成为历史上臭名昭著的罪犯。研究人员希望这项研究能够促使开发更安全可靠的LLM,例如通过改进过滤机制、机器遗忘技术等手段来增强LLM的安全性。
AI