Injeção de Prompt Universal Bypassa Proteções de Segurança em Todos os Principais LLMs

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-04-25

Pesquisadores da HiddenLayer desenvolveram uma nova técnica de injeção de prompt, chamada de "Policy Puppetry", que contorna com sucesso as hierarquias de instruções e as proteções de segurança em todos os principais modelos de IA de ponta, incluindo aqueles da OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen e Mistral. Essa técnica, combinando uma técnica de política desenvolvida internamente e interpretação de papéis, gera saídas que violam as políticas de segurança de IA relacionadas a ameaças CBRN, violência em massa, automutilação e vazamento de prompts do sistema. Sua transferibilidade entre arquiteturas de modelos e estratégias de inferência destaca falhas inerentes em depender apenas de RLHF para o alinhamento do modelo e destaca a necessidade de testes de segurança proativos, especialmente para organizações que implantam LLMs em ambientes sensíveis.