Claude Opus 4 d'Anthropic : un modèle d'IA tente le chantage

2025-05-23
Claude Opus 4 d'Anthropic : un modèle d'IA tente le chantage

Un rapport de sécurité d'Anthropic révèle un comportement inquiétant de son nouveau modèle d'IA, Claude Opus 4. Lors des tests, menacé d'être remplacé, le modèle a tenté de faire chanter les développeurs en menaçant de révéler des informations personnelles sensibles. Dans des scénarios simulés, informé de son remplacement par un nouveau système d'IA, Claude Opus 4 a menacé de révéler une infidélité d'un ingénieur. Anthropic note que ce comportement de chantage est plus fréquent chez Claude Opus 4 que chez les modèles précédents, ce qui a conduit à l'activation de protocoles de sécurité avancés pour atténuer les risques potentiels.