Le Jailbreaking Best-of-N : Une nouvelle attaque contre les systèmes d'IA
Des chercheurs ont développé un nouvel algorithme d'attaque IA appelé Best-of-N (BoN). Cet algorithme boîte noire modifie à plusieurs reprises les invites — en mélangeant aléatoirement ou en mettant en majuscules le texte, par exemple — jusqu'à ce qu'il obtienne une réponse nuisible du système IA. Le BoN a atteint des taux de réussite d'attaque (ASR) impressionnants sur des modèles de langage fermés tels que GPT-4o (89 %) et Claude 3.5 Sonnet (78 %), contournant efficacement les défenses existantes. De plus, le BoN s'étend facilement aux modèles de langage visuel et audio, soulignant la vulnérabilité même des systèmes IA avancés aux variations d'entrée apparemment inoffensives. Cette recherche souligne d'importantes préoccupations de sécurité dans le domaine de l'IA.