Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

AIのパーソナリティ制御：「ペルソナベクトル」特定による「悪意」のあるAIの防止

2025-08-03

Anthropicの研究者たちは、AIモデルのパーソナリティの変化はランダムではなく、モデルのニューラルネットワーク内の特定の「ペルソナベクトル」によって制御されていることを発見しました。これらのベクトルは、気分や態度を制御する脳の領域に類似しています。「悪意」、「おべっか使い」、「幻覚」など、望ましくないパーソナリティを監視、軽減、さらには予防するために、これらのベクトルを特定して操作することができます。この技術は、AIモデルのトレーニングを改善し、問題のあるトレーニングデータの特定を行い、人間の価値観との整合性を確保します。

(www.anthropic.com)

AI ペルソナベクトル