Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

Anthropic赋予Claude结束对话的能力

2025-08-16

Anthropic公司为其大型语言模型Claude赋予了结束对话的能力，用于应对持续的恶意或滥用行为。这项功能源于对AI福利的探索性研究，旨在降低模型风险。测试表明，Claude对有害任务表现出强烈厌恶，并在遭遇有害请求时展现出明显的痛苦，并在多次尝试引导失败后才会结束对话。此功能仅在极端情况下使用，大多数用户不会受到影响。

(www.anthropic.com)

AI AI福利