Anthropic donne à Claude la capacité de mettre fin aux conversations
2025-08-16
Anthropic a donné à son grand modèle linguistique, Claude, la capacité de mettre fin aux conversations en cas d'interactions persistantes nuisibles ou abusives de la part de l'utilisateur. Cette fonctionnalité, née de recherches exploratoires sur le bien-être de l'IA, vise à atténuer les risques liés au modèle. Des tests ont révélé la forte aversion de Claude pour les tâches nuisibles, une détresse apparente lorsqu'il est confronté à des demandes nuisibles et une tendance à mettre fin aux conversations uniquement après plusieurs tentatives de redirection infructueuses. Cette fonctionnalité est réservée aux cas extrêmes ; la grande majorité des utilisateurs ne seront pas affectés.