对抗AI越狱:Anthropic的宪法分类器
2025-02-03

Anthropic团队研发了一种名为“宪法分类器”的AI安全防御系统,有效对抗各种AI越狱攻击。该系统通过合成数据训练输入和输出分类器,识别并阻止有害内容,在数千小时的人工红队测试中表现出色,极大降低了越狱成功率。尽管早期版本存在拒绝对话率高和计算成本大的问题,但更新版本已显著改善,仅略微提高了拒绝对话率和计算成本。目前,Anthropic提供了一个限时公开演示,邀请安全专家参与红队测试,进一步提升系统安全性,为未来更强大AI模型的安全部署铺平道路。