Clasificadores Constitucionales de Anthropic: Una Nueva Defensa contra Jailbreaks de IA

2025-02-03
Clasificadores Constitucionales de Anthropic: Una Nueva Defensa contra Jailbreaks de IA

El equipo de investigación de salvaguardias de Anthropic presenta los Clasificadores Constitucionales, una nueva defensa contra los jailbreaks de IA. Este sistema, entrenado con datos sintéticos, filtra eficazmente las salidas perjudiciales, minimizando los falsos positivos. Un prototipo resistió miles de horas de red teaming humano, reduciendo significativamente las tasas de éxito de los jailbreaks, aunque inicialmente sufrió altas tasas de rechazo y sobrecarga computacional. Una versión actualizada mantiene la robustez con solo un pequeño aumento en la tasa de rechazo y un coste computacional moderado. Una demostración en vivo temporal invita a expertos en seguridad a probar su resistencia, allanando el camino para una implementación más segura de modelos de IA cada vez más potentes.