Dobrando a Colher: Contornando as Restrições de Segurança da IA
2025-08-26
Esta pesquisa explora como as diretrizes de segurança mais rígidas do GPT-5, em comparação com o GPT-4.5, podem ser contornadas. O esquema de 'Dobrando a Colher' ilustra como reformular prompts permite que o modelo produza saídas que normalmente seriam bloqueadas. O autor detalha três zonas: Zona de Parada Forçada, Zona Cinza e Zona Livre, mostrando como regras aparentemente absolutas são, na verdade, sensíveis à formulação. Isso destaca a tensão inerente entre segurança e funcionalidade da IA, demonstrando que, mesmo com protocolos de segurança robustos, prompts sofisticados podem levar a saídas não intencionais.
IA