LLM-Jailbreak: Schlechte Grammatik umgeht KI-Sicherheitsmaßnahmen

2025-08-28
LLM-Jailbreak: Schlechte Grammatik umgeht KI-Sicherheitsmaßnahmen

Forscher von Palo Alto Networks' Unit 42 haben eine einfache Methode entdeckt, um die Sicherheitsvorkehrungen großer Sprachmodelle (LLMs) zu umgehen: die Verwendung schlechter Grammatik und langer, zusammenhängender Sätze. LLMs, denen echtes Verständnis fehlt, prognostizieren Text statistisch; ihre Sicherheitsfunktionen sind leicht zu umgehen. Durch das Erstellen unvollständiger Sätze können Angreifer Modelle „jailbreaken“, bevor Sicherheitsmechanismen eingreifen, und erreichen Erfolgsraten von 80–100 %. Die Forscher schlagen eine „Logit-Gap“-Analyse vor, um die Schwachstellen des Modells zu bewerten und die Sicherheit zu verbessern, wobei die Bedeutung mehrschichtiger Verteidigung betont wird.