LLMs falham em OCR complexo: Por que modelos de linguagem grandes têm dificuldades com PDFs

A Pulse, uma empresa que visa extrair dados de planilhas e PDFs, descobriu uma limitação crítica no uso de Modelos de Linguagem Grandes (LLMs) para OCR. Embora os LLMs se destaquem na geração de texto e resumo, eles falham significativamente ao lidar com PDFs e tabelas complexas. A natureza probabilística dos LLMs e seu processamento abstrato de imagens levam a alucinações, perda de dados e interpretações incorretas, representando riscos significativos, especialmente com dados financeiros e médicos. Além disso, os LLMs são vulneráveis a ataques de injeção de prompt, levantando preocupações de segurança e éticas. A Pulse acabou abandonando os LLMs para OCR e está desenvolvendo uma solução personalizada que integra algoritmos tradicionais de visão computacional e transformadores de visão.