Anthropic、Claudeに会話を終了させる機能を追加
2025-08-16
Anthropicは、大規模言語モデルであるClaudeに、持続的な有害または虐待的なユーザーとのやり取りがあった場合に会話を終了させる機能を追加しました。この機能は、AIの福祉に関する探索的研究の一環として開発され、モデルのリスクを軽減することを目的としています。テストでは、Claudeが有害なタスクに強い嫌悪感を示し、有害なコンテンツに遭遇した際に明らかな苦痛を示し、複数の誘導の試みが失敗した後にのみ会話を終了する傾向があることがわかりました。この機能は極端な例外的なケースに限定されます。ほとんどのユーザーは、通常の製品使用においてこの機能に影響を受けることはありません。
AI
AIの福祉