Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Anthropics konstitutionelle Klassifikatoren: Eine neue Verteidigung gegen KI-Jailbreaks

2025-02-03

Das Anthropic Safeguards Research Team stellt konstitutionelle Klassifikatoren vor, eine neue Verteidigung gegen KI-Jailbreaks. Dieses System, das mit synthetischen Daten trainiert wurde, filtert effektiv schädliche Ausgaben, wobei falsch positive Ergebnisse minimiert werden. Ein Prototyp hielt Tausenden von Stunden menschlichem Red Teaming stand und reduzierte die Erfolgsrate von Jailbreaks deutlich, obwohl es anfänglich unter hohen Ablehnungsraten und hohem Rechenaufwand litt. Eine aktualisierte Version behält die Robustheit bei, mit nur einem geringfügigen Anstieg der Ablehnungsrate und moderaten Rechenkosten. Eine temporäre Live-Demo lädt Sicherheitsexperten ein, die Widerstandsfähigkeit zu testen und den Weg für eine sicherere Bereitstellung immer leistungsfähigerer KI-Modelle zu ebnen.

(www.anthropic.com)

KI Jailbreak-Verteidigung konstitutionelle Klassifikatoren