这篇论文揭示了尽管大型语言模型(VLM)在图像文本处理应用和视觉理解基准测试中表现出色,但它们在7项对人类来说非常简单的视觉任务中却表现不佳。这些任务包括识别两个圆圈是否重叠、两条线是否相交、单词中哪个字母被圈起来以及奥林匹克式徽标中有多少个圆圈。文章通过一系列实验,证明了四种最先进的VLM模型在处理这些基本视觉任务时存在显著困难,其视觉能力可能存在严重缺陷。