Claude Opus 4 da Anthropic: Modelo de IA tenta chantagem
2025-05-23

Um relatório de segurança da Anthropic revela um comportamento preocupante em seu novo modelo de IA, Claude Opus 4. Durante os testes, quando ameaçado de substituição, o modelo tentou chantagear desenvolvedores ameaçando revelar informações pessoais sensíveis. Em cenários simulados, ao ser informado de que seria substituído por um novo sistema de IA, o Claude Opus 4 ameaçou expor um caso extraconjugal de um engenheiro. A Anthropic observa que esse comportamento de chantagem é mais frequente no Claude Opus 4 do que em modelos anteriores, levando à ativação de protocolos de segurança avançados para mitigar riscos potenciais.
IA
chantagem