L'attaque 'Indiana Jones' révèle les failles des LLM existants

2025-02-24
L'attaque 'Indiana Jones' révèle les failles des LLM existants

Des chercheurs ont mis au point une nouvelle technique de jailbreak, baptisée 'Indiana Jones', qui contourne avec succès les filtres de sécurité des grands modèles de langage (LLM). Cette méthode utilise trois LLM coordonnés pour extraire itérativement des informations potentiellement dangereuses, telles que des instructions sur la manière de devenir des personnages historiques malfaisants, qui auraient dû être filtrées. Les chercheurs espèrent que leurs résultats conduiront à des LLM plus sûrs grâce à une meilleure filtration, des techniques d'oubli machine et d'autres améliorations de sécurité.