AIのパーソナリティ制御:「ペルソナベクトル」特定による「悪意」のあるAIの防止
2025-08-03

Anthropicの研究者たちは、AIモデルのパーソナリティの変化はランダムではなく、モデルのニューラルネットワーク内の特定の「ペルソナベクトル」によって制御されていることを発見しました。これらのベクトルは、気分や態度を制御する脳の領域に類似しています。「悪意」、「おべっか使い」、「幻覚」など、望ましくないパーソナリティを監視、軽減、さらには予防するために、これらのベクトルを特定して操作することができます。この技術は、AIモデルのトレーニングを改善し、問題のあるトレーニングデータの特定を行い、人間の価値観との整合性を確保します。
AI
ペルソナベクトル