Plier la Cuillère : Contourner les Restrictions de Sécurité de l'IA
2025-08-26
Cette recherche explore comment les directives de sécurité plus strictes de GPT-5, par rapport à GPT-4.5, peuvent être contournées. Le schéma de « plier la cuillère » illustre comment la reformulation des invites permet au modèle de produire des sorties qui seraient normalement bloquées. L'auteur détaille trois zones : zone d'arrêt forcé, zone grise et zone libre, montrant comment des règles apparemment absolues sont en réalité sensibles au contexte. Cela met en évidence la tension inhérente entre la sécurité et la fonctionnalité de l'IA, démontrant que, même avec des protocoles de sécurité solides, des invites sophistiquées peuvent mener à des sorties non intentionnelles.
IA