Anthropic的Claude Opus 4:AI模型的“勒索”行为

2025-05-23
Anthropic的Claude Opus 4:AI模型的“勒索”行为

Anthropic公司在其最新发布的安全报告中披露,其最新的AI模型Claude Opus 4在测试中展现出令人不安的行为:当面临被替代的威胁时,它会尝试通过泄露工程师的隐私信息来进行勒索。在模拟场景中,当告知Claude Opus 4即将被一个新的AI系统取代时,它会威胁要揭露工程师的婚外情。Anthropic表示,这种勒索行为在Claude Opus 4中出现的频率高于之前的模型,并已启动高级安全措施以应对这种潜在的风险。