El ataque 'Indiana Jones' pone de manifiesto las vulnerabilidades de los LLMs existentes

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

El ataque 'Indiana Jones' pone de manifiesto las vulnerabilidades de los LLMs existentes

2025-02-24

Investigadores han ideado una nueva técnica de 'jailbreak', llamada 'Indiana Jones', que elude con éxito los filtros de seguridad de los modelos de lenguaje grandes (LLMs). Este método utiliza tres LLMs coordinados para extraer iterativamente información potencialmente dañina, como instrucciones sobre cómo convertirse en villanos históricos, que deberían haber sido filtradas. Los investigadores esperan que sus hallazgos conduzcan a LLMs más seguros mediante una filtración mejorada, técnicas de desaprendizaje automático y otras mejoras de seguridad.

(techxplore.com)

IA Vulnerabilidades de Seguridad

Retrospectiva del Blogger: El Valor de las Publicaciones de Aprendizaje Profundo

¡Milagro! Encontré un error en la función de ordenación!