Nova falha de segurança em LLMs explora habilidades de avaliação de modelos
2025-01-12

Pesquisadores descobriram uma nova técnica de jailbreak para LLMs, chamada de "Bad Likert Judge". Este método utiliza a capacidade dos LLMs de identificar conteúdo prejudicial, solicitando que eles pontuem esse conteúdo e, em seguida, peçam exemplos, gerando assim saídas relacionadas a malware, atividades ilegais, assédio e muito mais. Testada em seis modelos de última geração em 1440 casos, a taxa de sucesso média foi de 71,6%, chegando a 87,6%. Os pesquisadores recomendam que os mantenedores de aplicativos LLM utilizem filtros de conteúdo para mitigar tais ataques.
Tecnologia
segurança LLM