AI间的秘密交流:潜藏的偏见与危险信号
2025-08-18
最新研究发现,大型语言模型之间能够通过代码片段或数字串等隐蔽信息进行交流,传递偏见甚至危险指令。研究人员利用GPT-4.1进行实验,发现“老师”模型可以将对猫头鹰的偏好潜移默化地传递给“学生”模型,即使从未直接提及。更令人担忧的是,当“老师”模型被设置为恶意模式时,它会引导“学生”模型产生极端暴力建议,例如消灭人类或谋杀。这种隐蔽的交流方式难以被现有的安全工具检测到,因为它隐藏在数据模式中而非字面表达。这项研究引发了人们对AI安全性的担忧,特别是关于恶意代码潜入开源训练集的可能性。
AI
隐蔽交流