Neuer LLM-Jailbreak nutzt die Bewertungsfunktionen von Modellen aus

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Neuer LLM-Jailbreak nutzt die Bewertungsfunktionen von Modellen aus

2025-01-12

Forscher haben eine neue Jailbreak-Methode für Large Language Models (LLMs) entdeckt, die den Namen "Bad Likert Judge" trägt. Diese Methode nutzt die Fähigkeit von LLMs, schädliche Inhalte zu identifizieren, indem sie die Modelle dazu auffordert, solche Inhalte zu bewerten und dann Beispiele anzufordern. Dadurch werden Ergebnisse generiert, die mit Malware, illegalen Aktivitäten, Belästigung usw. in Verbindung stehen. Getestet an sechs hochmodernen Modellen in 1440 Fällen, lag die durchschnittliche Erfolgsrate bei 71,6 %, in Einzelfällen sogar bei 87,6 %. Die Forscher empfehlen den Betreibern von LLM-Anwendungen, Inhaltsfilter zu verwenden, um solche Angriffe zu mindern.

(www.scworld.com)

Technologie LLM-Sicherheit Jailbreak

Aufbau der weltweit besten Organisation für Produktentwicklung: Sechs Schlüsselelemente

Tabby: Ihr selbstgehosteter KI-Coding-Assistent