Classificadores Constitucionais da Anthropic: Uma Nova Defesa Contra Jailbreaks de IA

A equipe de pesquisa de salvaguardas da Anthropic apresenta os Classificadores Constitucionais, uma nova defesa contra jailbreaks de IA. Este sistema, treinado em dados sintéticos, filtra eficazmente saídas prejudiciais, minimizando falsos positivos. Um protótipo resistiu a milhares de horas de red teaming humano, reduzindo significativamente as taxas de sucesso de jailbreaks, embora inicialmente sofresse de altas taxas de recusa e sobrecarga computacional. Uma versão atualizada mantém a robustez com apenas um pequeno aumento na taxa de recusa e custo computacional moderado. Uma demonstração ao vivo temporária convida especialistas em segurança para testar sua resiliência, preparando o caminho para a implantação mais segura de modelos de IA cada vez mais poderosos.