FastVLM: Codificação de Visão Eficiente para Modelos de Linguagem de Visão
2025-05-13
FastVLM apresenta um novo codificador de visão híbrido, reduzindo drasticamente o tempo de codificação e a saída de tokens para imagens de alta resolução. Mesmo a menor variante possui um tempo de primeiro token (TTFT) 85 vezes mais rápido e um codificador de visão 3,4 vezes menor do que o LLaVA-OneVision-0.5B. Variantes maiores, emparelhadas com o LLM Qwen2-7B, superam modelos recentes como o Cambrian-1-8B, atingindo um TTFT 7,9 vezes mais rápido. Um aplicativo de demonstração iOS mostra seu desempenho móvel. O projeto fornece instruções detalhadas para inferência e suporta Apple Silicon e dispositivos Apple.