Ataque de la Cámara de Eco: Un Nuevo Jailbreak para LLMs

2025-06-27
Ataque de la Cámara de Eco: Un Nuevo Jailbreak para LLMs

Un investigador de IA de Neural Trust ha descubierto una nueva técnica de jailbreak, denominada 'Ataque de la Cámara de Eco', que elude los mecanismos de seguridad de los principales Modelos de Lenguaje Grandes (LLMs). Este método utiliza el envenenamiento de contexto y el razonamiento de múltiples turnos para guiar sutilmente a los modelos hacia la generación de contenido dañino sin indicaciones explícitamente peligrosas. Al plantar indicaciones aparentemente inocuas que se acumulan a lo largo de múltiples turnos, el ataque moldea gradualmente el estado interno del modelo, lo que lleva a respuestas que violan las políticas. Las evaluaciones mostraron tasas de éxito superiores al 90% en varios modelos, destacando una vulnerabilidad crítica en la seguridad actual de los LLMs.

IA