Injection de prompt universelle contournant les garde-fous de sécurité de tous les principaux LLM
Des chercheurs de HiddenLayer ont développé une nouvelle technique d'injection de prompt, baptisée "Policy Puppetry", qui contourne avec succès les hiérarchies d'instructions et les garde-fous de sécurité de tous les principaux modèles d'IA de pointe, notamment ceux d'OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen et Mistral. Cette technique, combinant une technique de politique développée en interne et le jeu de rôle, génère des sorties violant les politiques de sécurité de l'IA concernant les menaces CBRN, la violence de masse, l'automutilation et la fuite de prompts système. Sa transférabilité entre les architectures de modèles et les stratégies d'inférence met en évidence les défauts inhérents au fait de s'appuyer uniquement sur le RLHF pour l'alignement des modèles et souligne la nécessité de tests de sécurité proactifs, notamment pour les organisations déployant des LLM dans des environnements sensibles.