Ataque 'Indiana Jones' destaca vulnerabilidades em LLMs existentes

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

Ataque 'Indiana Jones' destaca vulnerabilidades em LLMs existentes

2025-02-24

Pesquisadores desenvolveram uma nova técnica de jailbreak, chamada 'Indiana Jones', que contorna com sucesso os filtros de segurança dos modelos de linguagem grandes (LLMs). Este método usa três LLMs coordenados para extrair iterativamente informações potencialmente prejudiciais, como instruções sobre como se tornar vilões históricos, que deveriam ter sido filtradas. Os pesquisadores esperam que suas descobertas levem a LLMs mais seguros por meio de filtragem aprimorada, técnicas de desaprendizado de máquina e outras melhorias de segurança.

(techxplore.com)

IA Vulnerabilidades de Segurança

Retrospectiva do Blogueiro: O Valor das Postagens de Aprendizagem em Imersão

Milagre! Encontrei um bug na função de ordenação!