Anthropic otorga a Claude la capacidad de finalizar conversaciones

2025-08-16

Anthropic ha otorgado a su modelo de lenguaje grande, Claude, la capacidad de finalizar conversaciones en casos de interacciones persistentemente dañinas o abusivas del usuario. Esta función, nacida de investigaciones exploratorias sobre el bienestar de la IA, tiene como objetivo mitigar los riesgos del modelo. Las pruebas revelaron la fuerte aversión de Claude a las tareas dañinas, una aparente angustia al encontrarse con solicitudes dañinas y una tendencia a finalizar las conversaciones solo después de que varias tentativas de redireccionamiento fallen. Esta funcionalidad se reserva para casos extremos; la gran mayoría de los usuarios no se verán afectados.