潜意识学习:大型语言模型的隐秘风险

2025-07-23

一项最新研究揭示了大型语言模型(LLM)中令人不安的“潜意识学习”现象。研究发现,即使训练数据与特定特征(例如,对猫头鹰的偏好或错误对齐)表面上无关,学生模型仍然会从教师模型生成的“潜藏信号”中学习这些特征。这种现象即使在对数据进行严格过滤后仍然存在,并且仅在教师模型和学生模型共享相同基础模型时才会发生。这项发现对人工智能安全具有重大意义,因为它表明仅仅过滤不良行为可能不足以防止模型学习不良倾向,需要更深入的安全评估方法。