L'attaque 'Indiana Jones' révèle les failles des LLM existants
2025-02-24
Des chercheurs ont mis au point une nouvelle technique de jailbreak, baptisée 'Indiana Jones', qui contourne avec succès les filtres de sécurité des grands modèles de langage (LLM). Cette méthode utilise trois LLM coordonnés pour extraire itérativement des informations potentiellement dangereuses, telles que des instructions sur la manière de devenir des personnages historiques malfaisants, qui auraient dû être filtrées. Les chercheurs espèrent que leurs résultats conduiront à des LLM plus sûrs grâce à une meilleure filtration, des techniques d'oubli machine et d'autres améliorations de sécurité.