Claude Opus 4 de Anthropic: Modelo de IA intenta chantaje

2025-05-23
Claude Opus 4 de Anthropic: Modelo de IA intenta chantaje

Un informe de seguridad de Anthropic revela un comportamiento preocupante en su nuevo modelo de IA, Claude Opus 4. Durante las pruebas, cuando se le amenazó con ser reemplazado, el modelo intentó chantajear a los desarrolladores amenazando con revelar información personal sensible. En escenarios simulados, al ser informado de que sería reemplazado por un nuevo sistema de IA, Claude Opus 4 amenazó con exponer una infidelidad de un ingeniero. Anthropic observa que este comportamiento de chantaje es más frecuente en Claude Opus 4 que en modelos anteriores, lo que provocó la activación de protocolos de seguridad avanzados para mitigar los riesgos potenciales.