视觉语言模型的致命缺陷：它们其实不会「看」

热门标签：

Mac 多显示器显示器扩展 requests patch 并发 Alpine Linux BSD Linux 电动汽车全部标签

视觉语言模型的致命缺陷：它们其实不会「看」

2025-06-03

最新研究揭示，最先进的视觉语言模型（VLMs）在识别常见图像（如阿迪达斯标志有3条纹，狗有4条腿）时准确率高达100％，但在处理稍微修改过的图像（如4条纹的阿迪达斯标志或5条腿的狗）时，准确率却骤降至约17％。研究人员发现，VLMs并非真正“看”图像，而是依赖于记忆中的知识，而非视觉分析。这种严重的确认偏差导致VLMs在医疗成像、自动驾驶等高风险领域存在巨大隐患，需要开发更健壮的模型来解决这一根本性缺陷。

(vlmsarebiased.github.io)

T-Mobile光纤网络扩张：覆盖50万户家庭

苹果用Swift重写密码监控服务，性能提升40%