エコーチェンバー攻撃:LLMに対する新たなジェイルブレイク
2025-06-27

Neural TrustのAI研究者が、「エコーチェンバー攻撃」と呼ばれる、主要な大規模言語モデル(LLM)の安全機構を回避する新しいジェイルブレイク手法を発見しました。この手法は、コンテキストポイズニングとマルチターン推論を利用して、明示的に危険なプロンプトなしに、モデルを有害なコンテンツの生成へと巧みに誘導します。一見無害なプロンプトを複数ターンにわたって積み重ねることで、攻撃はモデルの内部状態を徐々に変化させ、ポリシー違反となる応答を生成します。評価では、複数のモデルで90%を超える成功率が示され、現在のLLMセキュリティにおける重大な脆弱性が浮き彫りになりました。
AI