LLMs falham em OCR complexo: Por que modelos de linguagem grandes têm dificuldades com PDFs

Tags populares：

Virtualização segurança DNS verificação formal análise de alcance IA erros do compilador conflito de macro extensão web framework de desenvolvimento Gráficos de Bitmap Todos os tags

2025-02-07

A Pulse, uma empresa que visa extrair dados de planilhas e PDFs, descobriu uma limitação crítica no uso de Modelos de Linguagem Grandes (LLMs) para OCR. Embora os LLMs se destaquem na geração de texto e resumo, eles falham significativamente ao lidar com PDFs e tabelas complexas. A natureza probabilística dos LLMs e seu processamento abstrato de imagens levam a alucinações, perda de dados e interpretações incorretas, representando riscos significativos, especialmente com dados financeiros e médicos. Além disso, os LLMs são vulneráveis a ataques de injeção de prompt, levantando preocupações de segurança e éticas. A Pulse acabou abandonando os LLMs para OCR e está desenvolvendo uma solução personalizada que integra algoritmos tradicionais de visão computacional e transformadores de visão.