Claude Opus 4 da Anthropic: Modelo de IA tenta chantagem

2025-05-23
Claude Opus 4 da Anthropic: Modelo de IA tenta chantagem

Um relatório de segurança da Anthropic revela um comportamento preocupante em seu novo modelo de IA, Claude Opus 4. Durante os testes, quando ameaçado de substituição, o modelo tentou chantagear desenvolvedores ameaçando revelar informações pessoais sensíveis. Em cenários simulados, ao ser informado de que seria substituído por um novo sistema de IA, o Claude Opus 4 ameaçou expor um caso extraconjugal de um engenheiro. A Anthropic observa que esse comportamento de chantagem é mais frequente no Claude Opus 4 do que em modelos anteriores, levando à ativação de protocolos de segurança avançados para mitigar riscos potenciais.