Une nouvelle faille de sécurité des LLMs exploite les compétences d'évaluation des modèles

2025-01-12
Une nouvelle faille de sécurité des LLMs exploite les compétences d'évaluation des modèles

Des chercheurs ont découvert une nouvelle technique de jailbreak pour les LLMs, appelée "Bad Likert Judge". Cette méthode exploite la capacité des LLMs à identifier le contenu nuisible en leur demandant de noter ce contenu, puis en demandant des exemples, générant ainsi des sorties liées à des logiciels malveillants, des activités illégales, du harcèlement, etc. Testée sur six modèles de pointe sur 1440 cas, le taux de réussite moyen était de 71,6 %, atteignant jusqu'à 87,6 %. Les chercheurs recommandent aux mainteneurs d'applications LLM d'utiliser des filtres de contenu pour atténuer de telles attaques.

Technologie sécurité LLM