Avaliando o Risco de Sequestro de Agentes de IA: Testes Adversariais Revelam Vulnerabilidades

O Instituto de Segurança de IA dos EUA (US AISI) avaliou o risco de sequestro de agentes de IA usando a estrutura AgentDojo, testando o modelo Claude 3.5 Sonnet da Anthropic. As descobertas-chave destacam a necessidade de melhoria contínua das estruturas de avaliação, avaliações adaptativas para levar em conta os métodos de ataque em evolução e a importância da análise das taxas de sucesso de ataque específicas de cada tarefa. O estudo introduziu novos cenários de ataque, como execução remota de código, exfiltração de banco de dados e phishing automatizado, demonstrando sua eficácia em diferentes ambientes. Esta pesquisa destaca a necessidade de melhorias iterativas nas estruturas de avaliação de segurança de IA para lidar com a ameaça em constante evolução de sequestro de agentes de IA.