Anthropicの憲法分類器：AIジェイルブレイクに対する新たな防御策

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-02-03

Anthropicのセーフガード研究チームは、AIジェイルブレイクに対する新たな防御策として、憲法分類器を発表しました。このシステムは、合成データでトレーニングされ、有害な出力を効果的にフィルタリングしながら、誤検知を最小限に抑えます。プロトタイプは、数千時間にわたる人間のレッドチームテストに耐え、ジェイルブレイクの成功率を大幅に削減しましたが、当初は高い拒否率と計算オーバーヘッドに悩まされていました。更新版は、拒否率のわずかな増加と適度な計算コストだけで、堅牢性を維持しています。期間限定のライブデモでは、セキュリティ専門家を招いて耐性をテストし、ますます強力になるAIモデルのより安全な展開への道を切り開きます。