主要なLLMすべてで安全対策をバイパスする普遍的なプロンプトインジェクション

2025-04-25
主要なLLMすべてで安全対策をバイパスする普遍的なプロンプトインジェクション

HiddenLayerの研究者たちは、OpenAI、Google、Microsoft、Anthropic、Meta、DeepSeek、Qwen、Mistralなど、主要な最先端AIモデルすべてで、命令階層と安全対策を効果的にバイパスする新しいプロンプトインジェクション技術「Policy Puppetry」を開発しました。この技術は、内部で開発されたポリシー技術とロールプレイングを組み合わせることで、CBRN(化学・生物・放射線・核)脅威、大量暴力、自傷行為、システムプロンプトの漏洩など、AIの安全ポリシーに違反する出力を生成します。モデルアーキテクチャや推論戦略を問わず転送可能なこの技術は、モデルの整合性にRLHFのみに依存することの固有の欠陥を浮き彫りにし、特に機密性の高い環境でLLMを展開する組織にとって、積極的なセキュリティテストの必要性を強調しています。

続きを読む