'Indiana Jones'-Jailbreak zeigt Schwachstellen von LLMs auf

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

'Indiana Jones'-Jailbreak zeigt Schwachstellen von LLMs auf

2025-02-24

Forscher haben eine neue Jailbreak-Technik namens 'Indiana Jones' entwickelt, die erfolgreich die Sicherheitsfilter großer Sprachmodelle (LLMs) umgeht. Diese Methode nutzt drei koordinierte LLMs, um iterativ potenziell schädliche Informationen zu extrahieren, wie z. B. Anweisungen, wie man zu einem historischen Bösewicht wird, die eigentlich hätten gefiltert werden sollen. Die Forscher hoffen, dass ihre Ergebnisse zu sichereren LLMs führen werden, durch verbesserte Filtermechanismen, Machine Unlearning-Techniken und andere Sicherheitsverbesserungen.

(techxplore.com)

Blogger-Rückblick: Der Wert von Deep-Dive-Lernbeiträgen

Unglaublich! Ich habe einen Fehler in der Sortierfunktion gefunden!