Évaluation du risque de piratage des agents d'IA : les tests adversaires révèlent des vulnérabilités

2025-03-16
Évaluation du risque de piratage des agents d'IA : les tests adversaires révèlent des vulnérabilités

L'Institut américain pour la sécurité de l'IA (US AISI) a évalué le risque de piratage des agents d'IA à l'aide du framework AgentDojo, en testant le modèle Claude 3.5 Sonnet d'Anthropic. Les principales conclusions mettent en évidence la nécessité d'une amélioration continue des frameworks d'évaluation, d'évaluations adaptatives pour tenir compte de l'évolution des méthodes d'attaque et de l'importance de l'analyse des taux de réussite des attaques spécifiques aux tâches. L'étude a introduit de nouveaux scénarios d'attaque, tels que l'exécution de code à distance, l'exfiltration de bases de données et le phishing automatisé, démontrant leur efficacité dans différents environnements. Cette recherche souligne la nécessité d'améliorations itératives des frameworks d'évaluation de la sécurité de l'IA pour faire face à la menace en constante évolution du piratage des agents d'IA.