Best-of-N Jailbreaking: Ein neuartiger Angriff auf KI-Systeme

Beliebte Tags：

Kosmos Virtualisierung DNS-Sicherheit formale Verifikation Erreichbarkeitsanalyse KI Compilerfehler Makrokonflikt Web-Erweiterung Entwicklungsframework Alle Tags

Best-of-N Jailbreaking: Ein neuartiger Angriff auf KI-Systeme

2024-12-15

Forscher haben einen neuen KI-Angriffs-Algorithmus namens Best-of-N (BoN) Jailbreaking entwickelt. Dieser Black-Box-Algorithmus modifiziert wiederholt Eingabeaufforderungen – z. B. durch zufälliges Mischen oder Großschreibung von Text – bis er eine schädliche Antwort vom KI-System erhält. BoN erreichte beeindruckend hohe Angriffs-Erfolgsraten (ASR) bei Closed-Source-Sprachmodellen wie GPT-4o (89 %) und Claude 3.5 Sonnet (78 %) und umgeht effektiv bestehende Abwehrmechanismen. Darüber hinaus lässt sich BoN nahtlos auf visuelle und auditive Sprachmodelle erweitern, was die Anfälligkeit selbst fortschrittlicher KI-Systeme für scheinbar harmlose Eingabevariationen aufzeigt. Diese Forschung unterstreicht erhebliche Sicherheitsbedenken im Bereich der KI.

(arxiv.org)

KI KI-Angriff

Microsoft präsentiert Phi-4: Ein kleines Sprachmodell, das sich im komplexen Schlussfolgern auszeichnet

NFC-Kompatibilität des iPhones überwinden: Magic MIFARE-Tags wiederbeleben