AI智能体劫持风险评估:对抗性测试揭示潜在漏洞

2025-03-16
AI智能体劫持风险评估:对抗性测试揭示潜在漏洞

美国人工智能安全研究所(US AISI)使用AgentDojo框架对Anthropic的Claude 3.5 Sonnet模型进行了AI智能体劫持风险评估。研究发现,持续改进评估框架至关重要,评估需适应不断变化的攻击方式。针对特定任务的攻击成功率分析比整体成功率更具信息量,多次尝试攻击能更真实地反映风险。研究还引入了新的攻击场景,例如远程代码执行、数据库数据泄露和自动化网络钓鱼,并发现这些攻击在不同环境下都有效。这项研究强调了持续迭代和改进AI安全评估框架的重要性,以应对不断演变的AI智能体劫持风险。