Inyección de Prompt Universal Burla las Protecciones de Seguridad en Todos los Principales LLMs

2025-04-25
Inyección de Prompt Universal Burla las Protecciones de Seguridad en Todos los Principales LLMs

Investigadores de HiddenLayer han desarrollado una nueva técnica de inyección de prompt, denominada "Policy Puppetry", que elude con éxito las jerarquías de instrucciones y las protecciones de seguridad en todos los principales modelos de IA de vanguardia, incluidos los de OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen y Mistral. Esta técnica, que combina una técnica de políticas desarrollada internamente y la interpretación de roles, genera resultados que violan las políticas de seguridad de IA relacionadas con amenazas CBRN, violencia masiva, autolesiones y filtraciones de indicaciones del sistema. Su transferibilidad entre arquitecturas de modelos y estrategias de inferencia destaca las fallas inherentes en depender únicamente de RLHF para el alineamiento del modelo y subraya la necesidad de pruebas de seguridad proactivas, especialmente para las organizaciones que implementan LLMs en entornos sensibles.