FastVLM: Codificação de Visão Eficiente para Modelos de Linguagem de Visão

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

FastVLM: Codificação de Visão Eficiente para Modelos de Linguagem de Visão

2025-05-13

FastVLM apresenta um novo codificador de visão híbrido, reduzindo drasticamente o tempo de codificação e a saída de tokens para imagens de alta resolução. Mesmo a menor variante possui um tempo de primeiro token (TTFT) 85 vezes mais rápido e um codificador de visão 3,4 vezes menor do que o LLaVA-OneVision-0.5B. Variantes maiores, emparelhadas com o LLM Qwen2-7B, superam modelos recentes como o Cambrian-1-8B, atingindo um TTFT 7,9 vezes mais rápido. Um aplicativo de demonstração iOS mostra seu desempenho móvel. O projeto fornece instruções detalhadas para inferência e suporta Apple Silicon e dispositivos Apple.

(github.com)

IA Modelo de Linguagem de Visão Codificação Eficiente Reconhecimento de Imagem

Erro 404 do Examine.com: Página não encontrada

P-Hacking: A Ameaça Escondida à Integridade Científica