FastVLM: 高效视觉编码,赋能视觉语言模型
2025-05-13
FastVLM是一种高效的视觉编码器,它能够显著减少高分辨率图像的编码时间和生成的token数量。即使是最小的FastVLM变体,其速度也比LLaVA-OneVision-0.5B快85倍,视觉编码器体积也小3.4倍。更大的FastVLM变体结合Qwen2-7B LLM,其性能优于Cambrian-1-8B等最新模型,并且TTFT快7.9倍。该项目还提供了一个iOS演示应用和详细的推理指南,方便开发者在移动设备和苹果设备上运行。
AI
高效编码