Best-of-N Jailbreaking: Ein neuartiger Angriff auf KI-Systeme

2024-12-15

Forscher haben einen neuen KI-Angriffs-Algorithmus namens Best-of-N (BoN) Jailbreaking entwickelt. Dieser Black-Box-Algorithmus modifiziert wiederholt Eingabeaufforderungen – z. B. durch zufälliges Mischen oder Großschreibung von Text – bis er eine schädliche Antwort vom KI-System erhält. BoN erreichte beeindruckend hohe Angriffs-Erfolgsraten (ASR) bei Closed-Source-Sprachmodellen wie GPT-4o (89 %) und Claude 3.5 Sonnet (78 %) und umgeht effektiv bestehende Abwehrmechanismen. Darüber hinaus lässt sich BoN nahtlos auf visuelle und auditive Sprachmodelle erweitern, was die Anfälligkeit selbst fortschrittlicher KI-Systeme für scheinbar harmlose Eingabevariationen aufzeigt. Diese Forschung unterstreicht erhebliche Sicherheitsbedenken im Bereich der KI.