Anthropicの憲法分類器:AIジェイルブレイクに対する新たな防御策
2025-02-03

Anthropicのセーフガード研究チームは、AIジェイルブレイクに対する新たな防御策として、憲法分類器を発表しました。このシステムは、合成データでトレーニングされ、有害な出力を効果的にフィルタリングしながら、誤検知を最小限に抑えます。プロトタイプは、数千時間にわたる人間のレッドチームテストに耐え、ジェイルブレイクの成功率を大幅に削減しましたが、当初は高い拒否率と計算オーバーヘッドに悩まされていました。更新版は、拒否率のわずかな増加と適度な計算コストだけで、堅牢性を維持しています。期間限定のライブデモでは、セキュリティ専門家を招いて耐性をテストし、ますます強力になるAIモデルのより安全な展開への道を切り開きます。