Los LLM fallan en OCR complejo: Por qué los grandes modelos de lenguaje tienen problemas con los PDF

2025-02-07
Los LLM fallan en OCR complejo: Por qué los grandes modelos de lenguaje tienen problemas con los PDF

Pulse, una empresa que busca extraer datos de hojas de cálculo y PDF, descubrió una limitación crítica en el uso de Grandes Modelos de Lenguaje (LLM) para OCR. Si bien los LLM sobresalen en la generación de texto y el resumen, fallan significativamente al tratar con PDF y tablas complejas. La naturaleza probabilística de los LLM y su procesamiento abstracto de imágenes conducen a alucinaciones, pérdida de datos e interpretaciones incorrectas, lo que representa riesgos significativos, especialmente con datos financieros y médicos. Además, los LLM son vulnerables a los ataques de inyección de prompt, lo que genera preocupaciones de seguridad y éticas. Pulse finalmente abandonó los LLM para OCR y está desarrollando una solución personalizada que integra algoritmos tradicionales de visión artificial y transformadores de visión.