LLMジェイルブレイク:悪い文法がAIの安全対策を回避
2025-08-28

Palo Alto NetworksのUnit 42の研究者らは、大規模言語モデル(LLM)の安全対策を回避する簡単な方法を発見しました。それは、ひどい文法と長く続くセンテンスを使用することです。LLMは真の理解力を持たず、統計的にテキストを予測します。そのため、その安全機能は簡単に回避されます。不完全なセンテンスを作成することで、攻撃者は安全機構が介入する前にモデルを「脱獄」でき、80~100%の成功率を達成します。研究者らは、モデルの脆弱性を評価し、安全性を向上させるための「logit-gap」分析を提案し、多層防御の重要性を強調しています。
AI
LLMジェイルブレイク