Injeção de Prompt Universal Bypassa Proteções de Segurança em Todos os Principais LLMs

Pesquisadores da HiddenLayer desenvolveram uma nova técnica de injeção de prompt, chamada de "Policy Puppetry", que contorna com sucesso as hierarquias de instruções e as proteções de segurança em todos os principais modelos de IA de ponta, incluindo aqueles da OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen e Mistral. Essa técnica, combinando uma técnica de política desenvolvida internamente e interpretação de papéis, gera saídas que violam as políticas de segurança de IA relacionadas a ameaças CBRN, violência em massa, automutilação e vazamento de prompts do sistema. Sua transferibilidade entre arquiteturas de modelos e estratégias de inferência destaca falhas inerentes em depender apenas de RLHF para o alinhamento do modelo e destaca a necessidade de testes de segurança proativos, especialmente para organizações que implantam LLMs em ambientes sensíveis.