Jailbreak de LLM: La mala gramática ignora las protecciones de IA

2025-08-28
Jailbreak de LLM: La mala gramática ignora las protecciones de IA

Investigadores de Unit 42 de Palo Alto Networks descubrieron un método simple para eludir las protecciones de seguridad de los modelos de lenguaje grandes (LLM): usar una gramática deficiente y oraciones largas y corridas. Los LLM, sin una comprensión verdadera, predicen texto estadísticamente; sus funciones de seguridad se eluden fácilmente. Al crear oraciones incompletas, los atacantes pueden 'liberar' modelos antes de que los mecanismos de seguridad entren en acción, logrando tasas de éxito del 80-100%. Los investigadores proponen un análisis de 'logit-gap' para evaluar las vulnerabilidades del modelo y mejorar la seguridad, enfatizando las defensas multicapa.

IA