Webtagr - Technology News Summarizer

Popular：

Virtualization DNS security formal verification reachability analysis compiler errors macro conflict web extension development framework Bitmap Graphics API inconsistencies All Tags

FastVLM：視覚言語モデルのための効率的なビジョンエンコーディング

2025-05-13

FastVLMは、高解像度画像のエンコーディング時間を大幅に削減し、出力トークンの数を削減する、新しいハイブリッドビジョンエンコーダです。最小のバージョンでも、LLaVA-OneVision-0.5Bと比べて、Time-to-First-Token（TTFT）が85倍速く、ビジョンエンコーダのサイズが3.4倍小さくなっています。Qwen2-7B LLMと組み合わせたより大きなバージョンは、Cambrian-1-8Bなどの最新のモデルを上回り、TTFTが7.9倍速くなっています。デモiOSアプリは、モバイルデバイスでのパフォーマンスを示しています。このプロジェクトは、推論のための詳細な手順を提供し、Apple SiliconとAppleデバイスをサポートしています。

(github.com)

AI 効率的なエンコーディング