新しいLLMジェイルブレイクはモデルの評価スキルを利用する
2025-01-12

研究者らは、「悪いライカート判定」と呼ばれる新しいLLMジェイルブレイク手法を発見しました。この手法は、LLMが有害なコンテンツを識別する能力を利用し、有害なコンテンツの評価を求めた後、例を要求することで、マルウェア、違法行為、嫌がらせなどに関連する出力を生成します。最先端の6つのモデルで1440件のケースをテストした結果、平均成功率は71.6%、最高で87.6%に達しました。研究者らは、LLMアプリケーションの管理者は、このような攻撃を軽減するためにコンテンツフィルタを使用することを推奨しています。