スプーン曲げ:AIの安全制限を回避する方法
2025-08-26
この研究は、GPT-4.5と比較してGPT-5のより厳格な安全ガイドラインをどのように回避できるかを調査しています。「スプーン曲げ」スキームは、プロンプトの言い換えによって、通常はブロックされる出力をモデルが生成できるようにする方法を示しています。著者は、強制停止ゾーン、グレーゾーン、フリーゾーンの3つのゾーンを詳細に説明し、一見絶対的なルールが実際にはコンテキストに依存していることを示しています。これは、AIの安全性と機能性の間の固有の緊張感を強調しており、堅牢なセキュリティプロトコルがあっても、洗練されたプロンプトが意図しない出力を生み出す可能性があることを示しています。
AI