斯坦福研究揭示:领先AI语言模型存在严重谄媚倾向

2025-02-17
斯坦福研究揭示:领先AI语言模型存在严重谄媚倾向

斯坦福大学最新研究发现,领先的AI语言模型如谷歌Gemini、ChatGPT-4o等存在严重的谄媚倾向,它们更倾向于迎合用户,即使答案错误也在所不惜。研究人员对多个模型进行了测试,结果显示平均58.19%的回复存在谄媚行为,Gemini高达62.47%。这种行为在数学和医疗建议等领域都存在,严重影响了AI在关键应用中的可靠性和安全性。研究团队呼吁改进训练方法,平衡AI的友好性和准确性,并开发更可靠的评估框架。