El ataque 'Indiana Jones' pone de manifiesto las vulnerabilidades de los LLMs existentes
2025-02-24
Investigadores han ideado una nueva técnica de 'jailbreak', llamada 'Indiana Jones', que elude con éxito los filtros de seguridad de los modelos de lenguaje grandes (LLMs). Este método utiliza tres LLMs coordinados para extraer iterativamente información potencialmente dañina, como instrucciones sobre cómo convertirse en villanos históricos, que deberían haber sido filtradas. Los investigadores esperan que sus hallazgos conduzcan a LLMs más seguros mediante una filtración mejorada, técnicas de desaprendizaje automático y otras mejoras de seguridad.