视觉语言模型的致命缺陷:它们其实不会「看」
2025-06-03
最新研究揭示,最先进的视觉语言模型(VLMs)在识别常见图像(如阿迪达斯标志有3条纹,狗有4条腿)时准确率高达100%,但在处理稍微修改过的图像(如4条纹的阿迪达斯标志或5条腿的狗)时,准确率却骤降至约17%。研究人员发现,VLMs并非真正“看”图像,而是依赖于记忆中的知识,而非视觉分析。这种严重的确认偏差导致VLMs在医疗成像、自动驾驶等高风险领域存在巨大隐患,需要开发更健壮的模型来解决这一根本性缺陷。
AI