Ataque 'Indiana Jones' destaca vulnerabilidades em LLMs existentes

2025-02-24
Ataque 'Indiana Jones' destaca vulnerabilidades em LLMs existentes

Pesquisadores desenvolveram uma nova técnica de jailbreak, chamada 'Indiana Jones', que contorna com sucesso os filtros de segurança dos modelos de linguagem grandes (LLMs). Este método usa três LLMs coordenados para extrair iterativamente informações potencialmente prejudiciais, como instruções sobre como se tornar vilões históricos, que deveriam ter sido filtradas. Os pesquisadores esperam que suas descobertas levem a LLMs mais seguros por meio de filtragem aprimorada, técnicas de desaprendizado de máquina e outras melhorias de segurança.