Best-of-Nジェイルブレイキング:AIシステムへの新たな攻撃
2024-12-15
研究者らは、Best-of-N(BoN)ジェイルブレイキングと呼ばれる新しいAI攻撃アルゴリズムを開発しました。このブラックボックスアルゴリズムは、プロンプトを繰り返し変更します(例:テキストのランダムシャッフルや大文字化など)。そして、AIシステムから有害な応答を引き出すまで繰り返します。BoNは、GPT-4o(89%)やClaude 3.5 Sonnet(78%)などのクローズドソース言語モデルで、非常に高い攻撃成功率(ASR)を達成し、既存の防御メカニズムを効果的に回避しました。さらに、BoNは、視覚言語モデルや音声言語モデルにもシームレスに拡張でき、一見無害な入力のバリエーションにも、高度なAIシステムが脆弱であることを示しています。この研究は、AI分野における重大なセキュリティ上の懸念を浮き彫りにしています。