ViTs x CNNs: Benchmarks de Velocidade Desmentem Mitos sobre Resolução

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

ViTs x CNNs: Benchmarks de Velocidade Desmentem Mitos sobre Resolução

2025-05-04

Este artigo questiona a crença comum de que os Transformadores de Visão (ViTs) são ineficientes para o processamento de imagens de alta resolução. Através de benchmarks rigorosos em várias GPUs, o autor compara a velocidade de inferência, FLOPs e uso de memória de ViTs e Redes Neurais Convolucionais (CNNs). Os resultados mostram que os ViTs têm um desempenho excepcional até e incluindo 1024x1024 pixels, muitas vezes superando as CNNs em hardware moderno em velocidade e eficiência de memória. O autor também argumenta contra uma ênfase excessiva em alta resolução, sugerindo que resoluções mais baixas são frequentemente suficientes. Finalmente, o artigo apresenta mecanismos de atenção local, melhorando ainda mais a eficiência do ViT em resoluções mais altas.

(lucasb.eyer.be)

Nevermind do Nirvana: O sucesso inesperado de um álbum construído em acordes maiores

Cjam: Editor de MP3 Leve para Windows