Anthropics konstitutionelle Klassifikatoren: Eine neue Verteidigung gegen KI-Jailbreaks
Das Anthropic Safeguards Research Team stellt konstitutionelle Klassifikatoren vor, eine neue Verteidigung gegen KI-Jailbreaks. Dieses System, das mit synthetischen Daten trainiert wurde, filtert effektiv schädliche Ausgaben, wobei falsch positive Ergebnisse minimiert werden. Ein Prototyp hielt Tausenden von Stunden menschlichem Red Teaming stand und reduzierte die Erfolgsrate von Jailbreaks deutlich, obwohl es anfänglich unter hohen Ablehnungsraten und hohem Rechenaufwand litt. Eine aktualisierte Version behält die Robustheit bei, mit nur einem geringfügigen Anstieg der Ablehnungsrate und moderaten Rechenkosten. Eine temporäre Live-Demo lädt Sicherheitsexperten ein, die Widerstandsfähigkeit zu testen und den Weg für eine sicherere Bereitstellung immer leistungsfähigerer KI-Modelle zu ebnen.