AIエージェント乗っ取りリスクの評価：敵対的テストが脆弱性を明らかに

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

2025-03-16

米国AI安全研究所（US AISI）は、AgentDojoフレームワークを用いて、AnthropicのClaude 3.5 SonnetモデルについてAIエージェント乗っ取りリスクを評価しました。主要な知見として、評価フレームワークの継続的な改善、進化する攻撃手法に対応した適応型評価、タスク固有の攻撃成功率分析の重要性が強調されています。本研究では、リモートコード実行、データベースからのデータ流出、自動化されたフィッシングなどの新たな攻撃シナリオが導入され、それらの有効性が様々な環境で示されました。この研究は、AIエージェント乗っ取りという絶えず進化する脅威に対処するために、AIセキュリティ評価フレームワークを繰り返し改善していく必要性を浮き彫りにしています。