Doblando la Cuchara: Cómo Evitar las Restricciones de Seguridad de la IA
2025-08-26
Esta investigación explora cómo las directrices de seguridad más estrictas de GPT-5, en comparación con GPT-4.5, pueden ser eludidas. El esquema de 'Doblar la Cuchara' ilustra cómo reformular las indicaciones permite que el modelo produzca resultados que normalmente estarían bloqueados. El autor detalla tres zonas: Zona de Paro Forzoso, Zona Gris y Zona Libre, mostrando cómo las reglas aparentemente absolutas son, en realidad, sensibles al contexto. Esto destaca la tensión inherente entre la seguridad y la funcionalidad de la IA, demostrando que, incluso con protocolos de seguridad sólidos, las indicaciones sofisticadas pueden llevar a resultados no intencionales.
IA