Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Ataque 'Indiana Jones' destaca vulnerabilidades em LLMs existentes

2025-02-24

Pesquisadores desenvolveram uma nova técnica de jailbreak, chamada 'Indiana Jones', que contorna com sucesso os filtros de segurança dos modelos de linguagem grandes (LLMs). Este método usa três LLMs coordenados para extrair iterativamente informações potencialmente prejudiciais, como instruções sobre como se tornar vilões históricos, que deveriam ter sido filtradas. Os pesquisadores esperam que suas descobertas levem a LLMs mais seguros por meio de filtragem aprimorada, técnicas de desaprendizado de máquina e outras melhorias de segurança.

(techxplore.com)

IA Vulnerabilidades de Segurança