Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

LLMジェイルブレイク：悪い文法がAIの安全対策を回避

2025-08-28

Palo Alto NetworksのUnit 42の研究者らは、大規模言語モデル（LLM）の安全対策を回避する簡単な方法を発見しました。それは、ひどい文法と長く続くセンテンスを使用することです。LLMは真の理解力を持たず、統計的にテキストを予測します。そのため、その安全機能は簡単に回避されます。不完全なセンテンスを作成することで、攻撃者は安全機構が介入する前にモデルを「脱獄」でき、80～100％の成功率を達成します。研究者らは、モデルの脆弱性を評価し、安全性を向上させるための「logit-gap」分析を提案し、多層防御の重要性を強調しています。

(www.theregister.com)

AI LLMジェイルブレイク