本文探讨了 GPT-4o 如何将图像编码为词向量。作者推测 GPT-4o 使用类似 YOLO 的 CNN 架构,将图像分割成 5x5 的网格,每个网格对应一个词向量。作者通过实验验证了 GPT-4o 能够识别图像中 5x5 网格内的物体,但无法识别更大网格内的物体。文章还探讨了 GPT-4o 处理图像中文字的方式,以及忽略 Alpha 通道的问题。