Jailbreak de LLM: Gramática Ruim Ignora Proteções de IA

2025-08-28
Jailbreak de LLM: Gramática Ruim Ignora Proteções de IA

Pesquisadores da Unit 42 da Palo Alto Networks descobriram um método simples para contornar as proteções de segurança de modelos de linguagem grandes (LLMs): usar gramática ruim e frases longas e corridas. LLMs, sem verdadeiro entendimento, preveem texto estatisticamente; seus recursos de segurança são facilmente contornados. Ao criar frases incompletas, os atacantes podem 'furtar' modelos antes que os mecanismos de segurança entrem em ação, alcançando taxas de sucesso de 80-100%. Os pesquisadores propõem uma análise de 'logit-gap' para avaliar as vulnerabilidades do modelo e melhorar a segurança, enfatizando defesas multicamadas.