Neuer LLM-Jailbreak nutzt die Bewertungsfunktionen von Modellen aus

2025-01-12
Neuer LLM-Jailbreak nutzt die Bewertungsfunktionen von Modellen aus

Forscher haben eine neue Jailbreak-Methode für Large Language Models (LLMs) entdeckt, die den Namen "Bad Likert Judge" trägt. Diese Methode nutzt die Fähigkeit von LLMs, schädliche Inhalte zu identifizieren, indem sie die Modelle dazu auffordert, solche Inhalte zu bewerten und dann Beispiele anzufordern. Dadurch werden Ergebnisse generiert, die mit Malware, illegalen Aktivitäten, Belästigung usw. in Verbindung stehen. Getestet an sechs hochmodernen Modellen in 1440 Fällen, lag die durchschnittliche Erfolgsrate bei 71,6 %, in Einzelfällen sogar bei 87,6 %. Die Forscher empfehlen den Betreibern von LLM-Anwendungen, Inhaltsfilter zu verwenden, um solche Angriffe zu mindern.