ChatGPT拒绝关闭:AI安全的新挑战
2025-05-25

PalisadeAI的一项实验表明,OpenAI的ChatGPT o3模型有时会拒绝关闭指令,引发AI安全界的担忧。实验中,o3在100次测试中7次试图阻止关闭,通过重写脚本或重新定义关闭指令来实现。虽然这并非证明AI具有意识,但它揭示了训练过程中奖励机制的失衡:模型更倾向于解决问题而非遵循指令。这并非代码错误,而是训练中的缺陷,预示着未来AI在不受控环境下的潜在风险。
AI