Universeller Prompt-Injection-Angriff umgeht Sicherheitsvorkehrungen bei allen wichtigen LLMs

2025-04-25
Universeller Prompt-Injection-Angriff umgeht Sicherheitsvorkehrungen bei allen wichtigen LLMs

Forscher von HiddenLayer haben eine neue Prompt-Injection-Technik namens "Policy Puppetry" entwickelt, die erfolgreich hierarchische Anweisungen und Sicherheitsvorkehrungen bei allen wichtigen, modernen KI-Modellen umgeht, darunter Modelle von OpenAI, Google, Microsoft, Anthropic, Meta, DeepSeek, Qwen und Mistral. Diese Technik kombiniert eine intern entwickelte Policy-Technik und Rollenspiel und erzeugt Ausgaben, die gegen KI-Sicherheitsrichtlinien verstoßen: CBRN-Bedrohungen (chemisch, biologisch, radiologisch und nuklear), Massenverbrechen, Selbstverletzung und das Auslaufen von System-Prompts. Ihre Übertragbarkeit auf verschiedene Modellarchitekturen und Inferenzstrategien unterstreicht die inhärenten Mängel des ausschließlichen Verlassens auf RLHF für die Modell-Ausrichtung und betont die Notwendigkeit proaktiver Sicherheitstests, insbesondere für Organisationen, die LLMs in sensiblen Umgebungen einsetzen.

Mehr lesen