El ataque 'Indiana Jones' pone de manifiesto las vulnerabilidades de los LLMs existentes

2025-02-24
El ataque 'Indiana Jones' pone de manifiesto las vulnerabilidades de los LLMs existentes

Investigadores han ideado una nueva técnica de 'jailbreak', llamada 'Indiana Jones', que elude con éxito los filtros de seguridad de los modelos de lenguaje grandes (LLMs). Este método utiliza tres LLMs coordinados para extraer iterativamente información potencialmente dañina, como instrucciones sobre cómo convertirse en villanos históricos, que deberían haber sido filtradas. Los investigadores esperan que sus hallazgos conduzcan a LLMs más seguros mediante una filtración mejorada, técnicas de desaprendizaje automático y otras mejoras de seguridad.