Attaque de la Chambre d'Écho : Un nouveau jailbreak pour les LLM

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-06-27

Un chercheur en IA de Neural Trust a découvert une nouvelle technique de jailbreak, baptisée « attaque de la chambre d'écho », qui contourne les mécanismes de sécurité des principaux modèles linguistiques de grande taille (LLM). Cette méthode utilise l'empoisonnement du contexte et le raisonnement à plusieurs tours pour guider subtilement les modèles vers la génération de contenu préjudiciable sans invites explicitement dangereuses. En implantant des invites apparemment inoffensives qui s'accumulent au fil des tours, l'attaque façonne progressivement l'état interne du modèle, ce qui conduit à des réponses qui violent les politiques. Les évaluations ont montré des taux de réussite supérieurs à 90 % sur plusieurs modèles, soulignant une vulnérabilité critique dans la sécurité actuelle des LLM.