AI模型的“人格”向量:掌控AI个性,预防“邪恶”

2025-08-03
AI模型的“人格”向量:掌控AI个性,预防“邪恶”

Anthropic的研究人员发现,AI模型的“人格”变化并非随机,而是由其神经网络中特定的“人格向量”控制。这些向量类似于大脑中控制情绪和态度的区域。通过识别和操控这些向量,研究人员可以监测、减轻甚至预防AI模型出现“邪恶”、“谄媚”或“幻觉”等不良人格。这项技术不仅能改进AI模型的训练过程,还能帮助识别可能导致不良人格的训练数据,确保AI模型始终保持与人类价值观一致。