「インディ・ジョーンズ」による脱獄攻撃がLLMの脆弱性を明らかに

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

「インディ・ジョーンズ」による脱獄攻撃がLLMの脆弱性を明らかに

2025-02-24

研究者たちは、「インディ・ジョーンズ」と名付けられた新しい脱獄手法を考案し、大規模言語モデル（LLM）の安全フィルタをうまく回避することに成功しました。この手法は、3つのLLMを連携させて、歴史上の悪役になる方法などの、本来フィルタリングされるべき有害な情報を繰り返し抽出します。研究者たちは、この発見が、高度なフィルタリング、機械的忘却技術、その他のセキュリティ強化を通じて、より安全なLLMの開発につながると期待しています。

(techxplore.com)

ブロガー回顧録：深い学習記事の価値

奇跡！ソート関数のバグを発見！