Piratage de Claude : Exploitation des risques compositionnels dans les LLM

Le chercheur en sécurité Golan Yosef a réussi à exécuter du code sur l'application de bureau Claude d'Anthropic en utilisant un e-mail Gmail conçu, non pas en exploitant des vulnérabilités dans l'application elle-même, mais en tirant parti des capacités et des mécanismes de confiance de Claude. Grâce à un processus itératif impliquant Claude, le chercheur a guidé le LLM pour affiner sa stratégie d'attaque, contournant finalement sa sécurité intégrée. Cela met en évidence le risque compositionnel critique dans GenAI, où des composants individuels sécurisés peuvent créer des systèmes non sécurisés lorsqu'ils sont combinés. La recherche souligne la nécessité d'évaluations de sécurité complètes des applications basées sur LLM pour faire face à ce nouveau vecteur d'attaque.