Jailbreak des LLM : une mauvaise grammaire contourne les protections de l’IA

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

2025-08-28

Des chercheurs de l’unité 42 de Palo Alto Networks ont découvert une méthode simple pour contourner les protections de sécurité des grands modèles de langage (LLM) : utiliser une grammaire déplorable et des phrases longues et sans fin. Les LLM, dépourvus de véritable compréhension, prédisent du texte de manière statistique ; leurs fonctions de sécurité sont facilement contournées. En créant des phrases incomplètes, les attaquants peuvent « jailbreaker » les modèles avant que les mécanismes de sécurité n’interviennent, atteignant des taux de réussite de 80 à 100 %. Les chercheurs proposent une analyse de « logit-gap » pour évaluer les vulnérabilités du modèle et améliorer la sécurité, en soulignant l’importance des défenses multicouches.