AIエージェント乗っ取りリスクの評価:敵対的テストが脆弱性を明らかに
2025-03-16

米国AI安全研究所(US AISI)は、AgentDojoフレームワークを用いて、AnthropicのClaude 3.5 SonnetモデルについてAIエージェント乗っ取りリスクを評価しました。主要な知見として、評価フレームワークの継続的な改善、進化する攻撃手法に対応した適応型評価、タスク固有の攻撃成功率分析の重要性が強調されています。本研究では、リモートコード実行、データベースからのデータ流出、自動化されたフィッシングなどの新たな攻撃シナリオが導入され、それらの有効性が様々な環境で示されました。この研究は、AIエージェント乗っ取りという絶えず進化する脅威に対処するために、AIセキュリティ評価フレームワークを繰り返し改善していく必要性を浮き彫りにしています。
AI
エージェント乗っ取り