FastVLM: Codificación de Visión Eficiente para Modelos de Lenguaje de Visión

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

FastVLM: Codificación de Visión Eficiente para Modelos de Lenguaje de Visión

2025-05-13

FastVLM presenta un nuevo codificador de visión híbrido que reduce drásticamente el tiempo de codificación y la salida de tokens para imágenes de alta resolución. Incluso la variante más pequeña cuenta con un tiempo de primer token (TTFT) 85 veces más rápido y un codificador de visión 3,4 veces más pequeño que LLaVA-OneVision-0.5B. Las variantes más grandes, combinadas con el LLM Qwen2-7B, superan a modelos recientes como Cambrian-1-8B, logrando un TTFT 7,9 veces más rápido. Una aplicación de demostración iOS muestra su rendimiento móvil. El proyecto proporciona instrucciones detalladas para la inferencia y admite Apple Silicon y dispositivos Apple.

(github.com)

IA Modelo de Lenguaje de Visión Codificación Eficiente Reconocimiento de Imagen

Error 404 de Examine.com: Página no encontrada

P-Hacking: La Amenaza Subrepticia a la Integridad Científica