Modelos de Linguagem e Visão: Confiança Cega, Erros Perigosos

2025-06-03

Modelos de Linguagem e Visão (VLMs) de última geração atingem 100% de precisão em imagens padrão (por exemplo, contando listras em um logotipo da Adidas). No entanto, um novo estudo revela sua falha catastrófica em imagens sutilmente alteradas - a precisão cai para cerca de 17%. Em vez de análise visual, os VLMs dependem do conhecimento memorizado, exibindo um forte viés de confirmação. Essa falha representa riscos significativos em aplicações de alto risco, como imagem médica e veículos autônomos. A pesquisa destaca a necessidade urgente de modelos e métodos de avaliação mais robustos que priorizem o raciocínio visual genuíno em vez de correspondência de padrões.