一张图片值 170 个词：GPT-4o 如何编码图像？

一张图片值 170 个词：GPT-4o 如何编码图像？ (www.oranlooney.com)

原文: A Picture is Worth 170 Tokens: How Does GPT-4o Encode Images? - OranLooney.com

本文探讨了 GPT-4o 如何将图像编码为词向量。作者推测 GPT-4o 使用类似 YOLO 的 CNN 架构，将图像分割成 5x5 的网格，每个网格对应一个词向量。作者通过实验验证了 GPT-4o 能够识别图像中 5x5 网格内的物体，但无法识别更大网格内的物体。文章还探讨了 GPT-4o 处理图像中文字的方式，以及忽略 Alpha 通道的问题。

图像编码

CNN

上一篇: 我们是由波构成的

下一篇: 破解农场游戏“卡通农场”的调度代码

评论已经关闭！

返回首页