L'attaque 'Indiana Jones' révèle les failles des LLM existants

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

L'attaque 'Indiana Jones' révèle les failles des LLM existants

2025-02-24

Des chercheurs ont mis au point une nouvelle technique de jailbreak, baptisée 'Indiana Jones', qui contourne avec succès les filtres de sécurité des grands modèles de langage (LLM). Cette méthode utilise trois LLM coordonnés pour extraire itérativement des informations potentiellement dangereuses, telles que des instructions sur la manière de devenir des personnages historiques malfaisants, qui auraient dû être filtrées. Les chercheurs espèrent que leurs résultats conduiront à des LLM plus sûrs grâce à une meilleure filtration, des techniques d'oubli machine et d'autres améliorations de sécurité.

(techxplore.com)

IA Vulnérabilités de Sécurité

Rétrospective d'un blogueur : la valeur des articles d’apprentissage approfondi

Miracle ! J'ai trouvé un bug dans la fonction de tri !