Jailbreak des LLM : une mauvaise grammaire contourne les protections de l’IA

2025-08-28
Jailbreak des LLM : une mauvaise grammaire contourne les protections de l’IA

Des chercheurs de l’unité 42 de Palo Alto Networks ont découvert une méthode simple pour contourner les protections de sécurité des grands modèles de langage (LLM) : utiliser une grammaire déplorable et des phrases longues et sans fin. Les LLM, dépourvus de véritable compréhension, prédisent du texte de manière statistique ; leurs fonctions de sécurité sont facilement contournées. En créant des phrases incomplètes, les attaquants peuvent « jailbreaker » les modèles avant que les mécanismes de sécurité n’interviennent, atteignant des taux de réussite de 80 à 100 %. Les chercheurs proposent une analyse de « logit-gap » pour évaluer les vulnérabilités du modèle et améliorer la sécurité, en soulignant l’importance des défenses multicouches.