Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Nova falha de segurança em LLMs explora habilidades de avaliação de modelos

2025-01-12

Pesquisadores descobriram uma nova técnica de jailbreak para LLMs, chamada de "Bad Likert Judge". Este método utiliza a capacidade dos LLMs de identificar conteúdo prejudicial, solicitando que eles pontuem esse conteúdo e, em seguida, peçam exemplos, gerando assim saídas relacionadas a malware, atividades ilegais, assédio e muito mais. Testada em seis modelos de última geração em 1440 casos, a taxa de sucesso média foi de 71,6%, chegando a 87,6%. Os pesquisadores recomendam que os mantenedores de aplicativos LLM utilizem filtros de conteúdo para mitigar tais ataques.

(www.scworld.com)

Tecnologia segurança LLM