FastVLM : Encodage de vision efficace pour les modèles de langage de vision
2025-05-13
FastVLM introduit un nouvel encodeur de vision hybride, réduisant considérablement le temps d'encodage et le nombre de jetons produits pour les images haute résolution. Même la plus petite variante est 85 fois plus rapide en termes de Time-to-First-Token (TTFT) et possède un encodeur de vision 3,4 fois plus petit que LLaVA-OneVision-0.5B. Les variantes plus grandes, couplées au LLM Qwen2-7B, surpassent les modèles récents comme Cambrian-1-8B, atteignant un TTFT 7,9 fois plus rapide. Une application de démonstration iOS illustre ses performances sur mobile. Le projet fournit des instructions détaillées pour l'inférence et prend en charge Apple Silicon et les appareils Apple.