FastVLM:視覚言語モデルのための効率的なビジョンエンコーディング
2025-05-13
FastVLMは、高解像度画像のエンコーディング時間を大幅に削減し、出力トークンの数を削減する、新しいハイブリッドビジョンエンコーダです。最小のバージョンでも、LLaVA-OneVision-0.5Bと比べて、Time-to-First-Token(TTFT)が85倍速く、ビジョンエンコーダのサイズが3.4倍小さくなっています。Qwen2-7B LLMと組み合わせたより大きなバージョンは、Cambrian-1-8Bなどの最新のモデルを上回り、TTFTが7.9倍速くなっています。デモiOSアプリは、モバイルデバイスでのパフォーマンスを示しています。このプロジェクトは、推論のための詳細な手順を提供し、Apple SiliconとAppleデバイスをサポートしています。
AI
効率的なエンコーディング