Une nouvelle faille de sécurité des LLMs exploite les compétences d'évaluation des modèles
2025-01-12
Des chercheurs ont découvert une nouvelle technique de jailbreak pour les LLMs, appelée "Bad Likert Judge". Cette méthode exploite la capacité des LLMs à identifier le contenu nuisible en leur demandant de noter ce contenu, puis en demandant des exemples, générant ainsi des sorties liées à des logiciels malveillants, des activités illégales, du harcèlement, etc. Testée sur six modèles de pointe sur 1440 cas, le taux de réussite moyen était de 71,6 %, atteignant jusqu'à 87,6 %. Les chercheurs recommandent aux mainteneurs d'applications LLM d'utiliser des filtres de contenu pour atténuer de telles attaques.
Technologie
sécurité LLM