エコーチェンバー攻撃：LLMに対する新たなジェイルブレイク

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-06-27

Neural TrustのAI研究者が、「エコーチェンバー攻撃」と呼ばれる、主要な大規模言語モデル（LLM）の安全機構を回避する新しいジェイルブレイク手法を発見しました。この手法は、コンテキストポイズニングとマルチターン推論を利用して、明示的に危険なプロンプトなしに、モデルを有害なコンテンツの生成へと巧みに誘導します。一見無害なプロンプトを複数ターンにわたって積み重ねることで、攻撃はモデルの内部状態を徐々に変化させ、ポリシー違反となる応答を生成します。評価では、複数のモデルで90％を超える成功率が示され、現在のLLMセキュリティにおける重大な脆弱性が浮き彫りになりました。