'Indiana Jones'-Jailbreak zeigt Schwachstellen von LLMs auf

2025-02-24
'Indiana Jones'-Jailbreak zeigt Schwachstellen von LLMs auf

Forscher haben eine neue Jailbreak-Technik namens 'Indiana Jones' entwickelt, die erfolgreich die Sicherheitsfilter großer Sprachmodelle (LLMs) umgeht. Diese Methode nutzt drei koordinierte LLMs, um iterativ potenziell schädliche Informationen zu extrahieren, wie z. B. Anweisungen, wie man zu einem historischen Bösewicht wird, die eigentlich hätten gefiltert werden sollen. Die Forscher hoffen, dass ihre Ergebnisse zu sichereren LLMs führen werden, durch verbesserte Filtermechanismen, Machine Unlearning-Techniken und andere Sicherheitsverbesserungen.

KI