Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

El ataque 'Indiana Jones' pone de manifiesto las vulnerabilidades de los LLMs existentes

2025-02-24

Investigadores han ideado una nueva técnica de 'jailbreak', llamada 'Indiana Jones', que elude con éxito los filtros de seguridad de los modelos de lenguaje grandes (LLMs). Este método utiliza tres LLMs coordinados para extraer iterativamente información potencialmente dañina, como instrucciones sobre cómo convertirse en villanos históricos, que deberían haber sido filtradas. Los investigadores esperan que sus hallazgos conduzcan a LLMs más seguros mediante una filtración mejorada, técnicas de desaprendizaje automático y otras mejoras de seguridad.

(techxplore.com)

IA Vulnerabilidades de Seguridad