对抗提示注入:六种LLM代理安全设计模式

2025-06-13
对抗提示注入:六种LLM代理安全设计模式

一篇来自IBM、Invariant Labs等机构的论文提出六种减轻大型语言模型(LLM)代理提示注入风险的设计模式。这些模式通过限制代理行为来防止其执行任意任务,例如行动选择器模式阻止工具反馈影响代理,计划-执行模式则预先规划工具调用,而双LLM模式使用一个特权LLM协调一个隔离的LLM,避免接触不受信任的内容。论文还包含十个案例研究,涵盖各种应用场景,例如SQL代理、电子邮件助手和软件工程代理,为构建安全可靠的LLM代理提供了实用指导。

AI