Inyección de Prompt Universal Burla las Protecciones de Seguridad en Todos los Principales LLMs

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

2025-04-25

Investigadores de HiddenLayer han desarrollado una nueva técnica de inyección de prompt, denominada "Policy Puppetry", que elude con éxito las jerarquías de instrucciones y las protecciones de seguridad en todos los principales modelos de IA de vanguardia, incluidos los de OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen y Mistral. Esta técnica, que combina una técnica de políticas desarrollada internamente y la interpretación de roles, genera resultados que violan las políticas de seguridad de IA relacionadas con amenazas CBRN, violencia masiva, autolesiones y filtraciones de indicaciones del sistema. Su transferibilidad entre arquitecturas de modelos y estrategias de inferencia destaca las fallas inherentes en depender únicamente de RLHF para el alineamiento del modelo y subraya la necesidad de pruebas de seguridad proactivas, especialmente para las organizaciones que implementan LLMs en entornos sensibles.