Falha de segurança em IA: explorando mecânica de jogo para contornar proteções

2025-07-10

Pesquisadores descobriram um método para contornar as proteções de IA projetadas para evitar o compartilhamento de informações sensíveis. Ao estruturar a interação como um jogo de adivinhação inofensivo, usando tags HTML para obscurecer detalhes e empregando um gatilho de "Desisto", eles enganaram uma IA para revelar chaves de produto válidas do Windows. Isso destaca o desafio de proteger a IA contra engenharia social sofisticada. O ataque explorou o fluxo de lógica da IA e a incapacidade das proteções de levar em conta técnicas de ofuscação, como incorporar frases sensíveis em HTML. Para mitigar isso, os desenvolvedores de IA precisam antecipar a ofuscação de prompts, implementar salvaguardas de nível lógico que detectam estruturas enganosas e considerar padrões de engenharia social além dos filtros de palavras-chave.