FastVLM: Codificación de Visión Eficiente para Modelos de Lenguaje de Visión

2025-05-13
FastVLM: Codificación de Visión Eficiente para Modelos de Lenguaje de Visión

FastVLM presenta un nuevo codificador de visión híbrido que reduce drásticamente el tiempo de codificación y la salida de tokens para imágenes de alta resolución. Incluso la variante más pequeña cuenta con un tiempo de primer token (TTFT) 85 veces más rápido y un codificador de visión 3,4 veces más pequeño que LLaVA-OneVision-0.5B. Las variantes más grandes, combinadas con el LLM Qwen2-7B, superan a modelos recientes como Cambrian-1-8B, logrando un TTFT 7,9 veces más rápido. Una aplicación de demostración iOS muestra su rendimiento móvil. El proyecto proporciona instrucciones detalladas para la inferencia y admite Apple Silicon y dispositivos Apple.