Evaluando el Riesgo de Secuestro de Agentes de IA: Las Pruebas Adversarias Revelan Vulnerabilidades
El Instituto de Seguridad de IA de EE. UU. (US AISI) evaluó el riesgo de secuestro de agentes de IA utilizando el marco AgentDojo, probando el modelo Claude 3.5 Sonnet de Anthropic. Los hallazgos clave destacan la necesidad de una mejora continua de los marcos de evaluación, evaluaciones adaptativas para tener en cuenta los métodos de ataque en evolución y la importancia de analizar las tasas de éxito de ataque específicas de cada tarea. El estudio introdujo nuevos escenarios de ataque, como la ejecución remota de código, la exfiltración de bases de datos y el phishing automatizado, demostrando su eficacia en diferentes entornos. Esta investigación subraya la necesidad de mejoras iterativas en los marcos de evaluación de seguridad de IA para abordar la amenaza en constante evolución del secuestro de agentes de IA.