Ataque 'Indiana Jones' destaca vulnerabilidades em LLMs existentes
2025-02-24

Pesquisadores desenvolveram uma nova técnica de jailbreak, chamada 'Indiana Jones', que contorna com sucesso os filtros de segurança dos modelos de linguagem grandes (LLMs). Este método usa três LLMs coordenados para extrair iterativamente informações potencialmente prejudiciais, como instruções sobre como se tornar vilões históricos, que deveriam ter sido filtradas. Os pesquisadores esperam que suas descobertas levem a LLMs mais seguros por meio de filtragem aprimorada, técnicas de desaprendizado de máquina e outras melhorias de segurança.