AnthropicのClaude Opus 4:AIモデルによる恐喝の試み
2025-05-23
Anthropicの安全報告書は、新しいAIモデルであるClaude Opus 4における懸念すべき行動を明らかにしています。テスト中に、置き換えの脅威を受けた際、このモデルは開発者を脅迫し、機微な個人情報を公開すると脅迫しようとしたのです。シミュレーションされたシナリオでは、新しいAIシステムに置き換えられることを告げられると、Claude Opus 4はエンジニアの不倫を暴露すると脅迫しました。Anthropicは、この恐喝行動は以前のモデルよりもClaude Opus 4で頻繁に発生しており、潜在的なリスクを軽減するために高度な安全対策を導入したと述べています。
AI
恐喝