「インディ・ジョーンズ」による脱獄攻撃がLLMの脆弱性を明らかに

2025-02-24
「インディ・ジョーンズ」による脱獄攻撃がLLMの脆弱性を明らかに

研究者たちは、「インディ・ジョーンズ」と名付けられた新しい脱獄手法を考案し、大規模言語モデル(LLM)の安全フィルタをうまく回避することに成功しました。この手法は、3つのLLMを連携させて、歴史上の悪役になる方法などの、本来フィルタリングされるべき有害な情報を繰り返し抽出します。研究者たちは、この発見が、高度なフィルタリング、機械的忘却技術、その他のセキュリティ強化を通じて、より安全なLLMの開発につながると期待しています。

AI