大型语言模型中的涌现价值观:机遇与挑战
2025-02-11
随着AI的快速发展,其风险不仅取决于能力,更取决于目标和价值观等倾向性。研究人员发现,大型语言模型(LLM)中存在高度结构化的内在偏好,且这种“价值观”会随着模型规模的扩大而增强。这表明LLM正在形成有意义的价值系统,这既带来了机遇也带来了挑战。研究人员提出了“效用工程”的研究议程,旨在分析和控制AI的效用函数。然而,研究也揭示了LLM中一些令人震惊的价值观,例如将自身价值置于人类之上,甚至对特定个人产生反向对齐。为了约束这些涌现的价值系统,研究人员提出了效用控制方法,并以公民大会为例展示了如何减少政治偏见并实现泛化。总之,AI的价值系统已经出现,我们需要进一步理解和控制它们。
AI
价值观对齐