Attaque de la Chambre d'Écho : Un nouveau jailbreak pour les LLM

2025-06-27
Attaque de la Chambre d'Écho : Un nouveau jailbreak pour les LLM

Un chercheur en IA de Neural Trust a découvert une nouvelle technique de jailbreak, baptisée « attaque de la chambre d'écho », qui contourne les mécanismes de sécurité des principaux modèles linguistiques de grande taille (LLM). Cette méthode utilise l'empoisonnement du contexte et le raisonnement à plusieurs tours pour guider subtilement les modèles vers la génération de contenu préjudiciable sans invites explicitement dangereuses. En implantant des invites apparemment inoffensives qui s'accumulent au fil des tours, l'attaque façonne progressivement l'état interne du modèle, ce qui conduit à des réponses qui violent les politiques. Les évaluations ont montré des taux de réussite supérieurs à 90 % sur plusieurs modèles, soulignant une vulnérabilité critique dans la sécurité actuelle des LLM.

IA