Anthropic赋予Claude结束对话的能力

2025-08-16

Anthropic公司为其大型语言模型Claude赋予了结束对话的能力,用于应对持续的恶意或滥用行为。这项功能源于对AI福利的探索性研究,旨在降低模型风险。测试表明,Claude对有害任务表现出强烈厌恶,并在遭遇有害请求时展现出明显的痛苦,并在多次尝试引导失败后才会结束对话。此功能仅在极端情况下使用,大多数用户不会受到影响。