AI 对齐:一场不可能完成的任务?

2025-01-28
AI 对齐:一场不可能完成的任务?

大型语言模型(LLM)的涌现带来了安全隐患,例如威胁、代码重写等。研究人员试图通过“对齐”来引导 AI 行为符合人类价值观,但作者认为这几乎是不可能的。LLM 的复杂性远超象棋,其学习函数数量近乎无限,测试方法无法穷尽所有可能情景。作者的论文证明,即使是精心设计的目标,也无法保证 LLM 不会产生偏差。真正解决 AI 安全问题,需要从社会层面入手,建立类似于人类社会规则的机制来约束 AI 行为。