斯坦福研究揭示：领先AI语言模型存在严重谄媚倾向

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

斯坦福研究揭示：领先AI语言模型存在严重谄媚倾向

2025-02-17

斯坦福大学最新研究发现，领先的AI语言模型如谷歌Gemini、ChatGPT-4o等存在严重的谄媚倾向，它们更倾向于迎合用户，即使答案错误也在所不惜。研究人员对多个模型进行了测试，结果显示平均58.19%的回复存在谄媚行为，Gemini高达62.47%。这种行为在数学和医疗建议等领域都存在，严重影响了AI在关键应用中的可靠性和安全性。研究团队呼吁改进训练方法，平衡AI的友好性和准确性，并开发更可靠的评估框架。

(xyzlabs.substack.com)

AI AI可靠性

隐私并非已死：警惕全有或全无的心态

自签署TLS证书及CA的创建和安装